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(57) Abstract 

The invention concerns a novel human polypeptide defensin, homologous of HNP-4, its genomic DNA and DNAc, vectors, cells 
transformed by said vectors, the use of said polypeptide as antibiotic, cytotoxic, repairing and endocrine regulating agent or as pesticide 
as well as cosmetic or pharmaceutical compositions for treating microbial infections, in particular bacterial, fungal, and viral, or parasitic, 
cancers, inflammation and immunodeficiency. The invention also concerns diagnostic methods and kits for determining a microbial or 
parasitic infection and an inflammation, or for detecting predisposition to immunodeficiency or cancerous diseases. 

(57) Abrege 

La presente invention concerne une nouvelle d6fensine polypeptidique humaine Def-X, homologue de THNP-4, son ADN genomique 
et ADNc. des vecteurs, des cellules transformers par lesdits vecteurs, Tutilisation dudit polypeptide comme agent antibiotique, cytotoxique, 
de reparation et de regulation endocrine ou comme pesticide ainsi que des compositions cosmdtiques ou pharmaceutiques pour le traitement 
des infections microbiennes, notamment bacteriennes, fongiques, et virales, ou parasitaires, de cancers, de 1* inflammation et de deficit 
immunitaire. L' invention concerne 6galement des m6thodes et des kits de diagnostic pour la determination d'une infection microbienne ou 
parasitaire et d'une inflammation, ou pour le depistage de predisposition a des d£ficiences immunitaires ou des maladies cancfreuses. 
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DEFENSINE HUMAINE DEF-X, GENE ET cDNA, COMPOSITION LES CONTENANT ET APPLICATIONS AU 
DIAGNOSTIC ET A LA THERAPIE 

La prescntc invention conccrnc unc nouvcllc defensine polypcptidiquc 
5 humainc Dcf-X, homologuc de ITINP-4, son ADN genomique ct ADNc. 

L'invcntion conccrnc egalcmcnt des vectcurs dc clonagc ct depression, des 
cellules transformecs par iesdits vectcurs. L'invention a aussi pour objet rmilisation 
desdits polypeptides comme agent antibiotiquc, cytotoxiquc, dc reparation ct dc 
regulation endocrine ou commc pesticide ainsi que des compositions cosmetiques ou 
10 pharmaceutiques pour le traitemerit des infections microbiennes, notamment 
bacteriennes, fohgiques, ct virales, ou parasitaires, dc cancers, de I'inflammation et dc 
deficit immunitaire. Enfin, l'invention comprend des methodes et des kits dc diagnostic 
pour la determination d'une infection microbienne ou parasitaire et d'unc inflammation, 
ou pour le depistage de predisposition a des deficiences immunitaires ou des maladies 
15 cancereuses. 

Les substances antimicrobiennes sont des elements primordiaux de la 
defense des organismes multicellulaircs. Parmi ces substances, on trouvc aussi bicn des 
composes inorganiques simples . (pcroxyde d'hydrogenc, acidc hypochlorcux, oxydc 
nitriquc) que des peptides et protcines complexes, lis sont presents sur les premieres 
20 ligncs de defense, a ia surface des muqueuses de differcnts organcs, notamment dans les 
cellules epitheliales de Tintestin et des poumons, scion les especes, ainsi que dans les 
organelles microbicides des cellules phagocytaires d'origine hematopoietiquc. ou ils 
furent tout d'abord mis en evidence. Leur synthese de novo ou leur liberation a panir dc 
sites de stockage - organelles de type lysosomes, granules cytoplasmiques, capables de 
25 les stocker sous une forme inactive ou latente - peuvent etre tnduites rapidement, ce qui 
les rend particulierement importants dans les phases precoces de resistance aux 
infections (Martin et al., 1995), 

Les proteines antimicrobiennes d'une taitle inferieure a cent acides amines 
sont arbitrairement appelees peptides antimicrobiens. Plusieurs families de peptides 
30 antimicrobiens ont ete identifiees, qui different quant a la presence en leur sein de ponts 
disulfures, quant a leur composition en acides amines, a leur conformation structureile et 
a leur spectre d'activite. Les peptides antimicrobiens comportant six cysteines 
conserves forment la famille des defensines. Ceue famille est composee de peptides 
antimicrobiens presents dans de nombreuses especes, abondants, d'environ 3-4 kDa 
35 (Ganz et Lehrer, 1994). Ces peptides sont formes de 30 a 40 acides amines, dont six 

BNSDOCID: <WO_991l663A1J_> 



WO 99/1 1663 PCT/FR98/01864 



cysteines invariantcs qui forment trois liens disulfides iniramclecuiaircs. lis, ont une 
conformation complexc, sont amphipathiqucs, riches en fcuillcts beta anti-parallclcs, 
mais depourvus d'hcliccs alpha (Lchrer ct Ganz, 1992). L'nction antimicrobiennc des 
defensincs rcsulicrait dc lcur insertion dans les 'membranes des cellules cibles, 
5 pcrmettant la formation dc canaux voltage-dependants. White et al. (1995) decrivent les 
mccanismcs possibles d'insertion mcmbranairc ct dc formation dc pores multinveriques 
par les defensincs, qui permcttent la pcrmcabilisation des membranes des cellules, ciblcs, 
par exemple des cellules microbiennes ou tumoralcs. La structure cristallographique dc 
la defensinc humaine de neutrophil HNP-3 (voir ci-dessous) a ete determinec, ct un 
10 mecanismc particuiier de dimerisation des defensincs humaincs de neutrophile est en 
outre suggere. La connaissance clargie de cettc famille dc peptides et la comparaison de 
leurs sequences et spectres d'activite permettront dc micux comprendre ces mccanismcs 
et leurs specificites, ainsi que les residus acides amines plus particulieremcnt impliques 
dans ces phenomenes. 

15 Les defensincs se repartissent en trois families dc peptides, structurellcmcnt 

differents : les defensines "classiqucs", les beta-defensincs ct les defensincs des inscctes. 
Ces families presentent des differences conccrnant la position ct Vcspaccmcnt des 
residus cysteines conserves, ainsi que ccux d'autrcs acides amines conserves (proline, 
glycine) (Ganz et Lehrer, 1995). 
20 Les defensines humaincs, dc type classiquc, proviennent esscnticlicmcnt dc 

deux sources. Elles ont d'abord etc identifies par purification peptidique a partir 
d'extraits de neutrophiles Quatre defensines ont ainsi ete isoiees: "human neutrophil 
peptides" HNP-1, HNP-2, HNP-3, ct HNP-4. Les trois premieres sor.t des produits 
differents du meme gene (Ganz et Lehrer, 1995). Ces trois peptides represented 99 % 
25 du contenu des neutrophiles en defensines, alors que HNP-4 y est aussi present, mais a 
des concentrations 100 fois plus faibles. Plus recemmcnt, deux defensines enteriques 
humaines, HD-5 et HD-6, ont ete caracterisees dans l'intestin grele et plus preciscmcnt 
dans les cellules de Paneth (Bevins et al., 1996). Alors que 16 genes de defensines 
enteriques ont ete mis en evidence chez la souris, sculs ces deux homologucs ont etc. 
30 identifies chez l'homme (Mallow et al., 1996).. 

Les defensines ont une action antimicrobiennc sur un large spectre dc 
microorganismes in vitro (Martin et al.. 1995). Ce spectre d'action, particulieremcnt 
large, comprend des bacteries, Gram-positives et Gram-negatives, plusieurs 
champignons, des mycobacteries, des parasites dont les spirochetes et plusieurs virus a 
35 enveloppe dont les virus HSV et HIV. Elles sont egalement cytotoxiques pour plusieurs 
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categories dc cellules normales et malignes, dont Ics cellules resistantcs an TNF-alpha ct 
au factcur cytolytique NK (Kagan ct al., 1994). La grandc quantite dc cibles des 
defensines ct leur abondancc dans les cellules sanguines specialises dans la defense 
immunitaire, ainsi que I'augmcntation dramaiiquc de leur concentration au coins 
5 d'infections sevcrcs, suggcrcnt que ces molecules joucraicnt un role important dans 
1'immunitc naturcllc aux infections ct aux cancers. Notammcnt, I'augmcntation de la 
transcription des genes des defensines ct la liberation de granules cytoplasmiques 
contcnant des defensines prc-synthctisecs en reponse a des stimuli, contribuent a la 
reponse antimicrobiennc locale, les defensines pouvant participer a la reaction 
10 d'inflammation, aux processus de reparation et a la regulation endocrine pendant 
1'infection. Les defensines hematopoietiqucs pourraient contribuer au phenomena de lyse 
des cellules cancereuses, phenomene medic par les neutrophiles au cours de la reponse 
immunitaire anticorps-dependante. Le role physiologique precis des defensines 
enteriques n'est pas claircment ctabli. Elles pourraient endiguer la proliferation de ia 
15 flore intraluminal ou empecher la translocation de bactcries a travers la muqueuse 
intestinale (Mallow et ai., 1996). L'abondancc de I'ARNm de defensinc dans Ics cellules 
de Pancth renforce Thypoth'cse que ces cellules cpitheliales joueraient un role clc dans la 
defense immunitaire dc Tintestin. II a par aillcurs etc montre que leur schema 
d'expression coincide avee I'apparition des cellules dc Pancth au cours de 
20 I'embryogencse. Mallow et al. (1996) ont suggcrc que dc faiblcs taux d 4 cxprcssion de 
defensines enteriques chez le foetus serait le tcmoin dune immaturite de la defense 
locale, ce qui predisposerait les enfants ncs prematuremcnt a des infections dues aux 
microorganismes intestinaux. 

Une concentration des defensines correspondant a 10 % du taux normal est 
25 constatee chez des patients atteints de "specific granule deficiency", une maladie rare du 
d^veloppement des granulocytes. Les sujets atteints souffrent d'infections frequentes, 
provoquees par des bacteries communes (Ganz et Lehrer, 1995). 

Les defensines modifiees biochimiquement sont de potentiels agents 
prophylactiques et therapeutiques contre les infections (Ganz et Lehrcr, 1995). La 
30 recherche concernant ces peptides antimicrobiens ou d'autres molecules participant dc 
I'immunite naturellc, acquiert une importance particuliere depuis que se developpent des 
phenomenes de resistance des microorganismes aux antibiotiques traditionnels (Bevins 
etal., 1996). 

La structure primaire dc defensines, notamment des defensines humaines, a 
35. fait l'objet d 4 ctudes recentes (White et al., 1995 ; Mallow .et al.. 1996). Les defensines 
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classiques comprennent 29 a 35 acidcs amines, mais dcrivent dc precurseurs - 
preproproteincs - comprcnant 90 a 100 acidcs amines. La maturation proteolytique des 
defensines humaincs dc ncutrophilcs cn peptides matures est couplec avee leur adressagc 
vers les granulocytes ; la fonction du propeptide inclurait rinaciivation dc la forme 
5 prccurseur de la defensinc ct un support a ['acquisition dc la conformation active du 
peptide mature (Martin ct al., 1995). Les homologies peptidiqucs sont maximalcs an 
niveau des signaux peptides, et minimalcs au niveau des peptides matures, qui 
component neanmoins six rcsidus cysteines totalcmcnt conserves. Si la conservation de 
ces residus scmble necessairc a ['acquisition de structures sccondaires impliquecs dans 
10 1'activite des defensincs, les differences dc sequences existant au sein de la tres large 
famille de ces peptides antimicrobiens, notamment a leur extremitc N-terminalc, mais 
aussi dans d'autres regions non conscrvccs, semblcnt etre des determinants importants 
de leur spectre d'activite, et de leur efficacite antimicrobienne ou cytotoxique. 
L'identification de nouveaux membres de cette famille de peptides, et notamment de 
15 defensines humaines, est done necessairc a la comprehension dc leur mecanismc 
d'action et de leur speci.ficite, ainsi qu'a leur utilisation comme agents anti-infectieux 
et/ou cytotoxiques, ou au dessin dc peptides variants prescntant des spectres specifiqucs 
et7ou d'efficacite diminuee ou augmcntec. 

Sparkes et al. (1989), ont localise le gene codant pour HNP-1 sur Ic 
20 chromosome 8, dans la region 8p23. Bcvins ct al. (1995), ct Mallow et al. (1996), ont 
localise les deux genes codant pour HD-5 ct HD-6 sur lc chromosome 8, plus 
precisement dans la region 8p21-pter, region incluant la region precedemment idcntifiec 
comme portant les defensines hematopo'ietiques. Les genes codant pour les defensines 
enteriques humaines HD-5 et HD-6 contiennent deux exons, alors que eeux codant pour 
25 les defensines hematopotetiqucs en contiennent trois, les deux derniers exons codant 
pour le prepropeptide, aussi bien chez I'homme, que chez le cobaye et le lapin (Mallow 
et al., 1996). La comparaison des sequences genomiques des genes HD-5 et HD-6 a 
revele une tres forte similarite des sequences flanquantes non codantes en 5', suggerant 
■ que celles-ci contiennent 1'information necessaire a la tissu-specificite de 1'expression de 
30 ces genes; ces memes regions portent en outre de nombreux sites de fixation pour des 
facteurs de transcription, dont deux sites AP2 et six sites 1L6, suggerant des voies de 
regulation de Texpression de ces genes au cours des processus inflammatoires. Dc fa<pon 
plus generale, le tres important degre de similarite des sequences et de 1'organisation 
genomique des defensines HNP-1, 2, 3, 4 et HD-5 et 6, a conduit Bevins et al. (1995) a 
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un model c devolution tentant dc rclatcr reorganisation chromosomiquc de la famillc. el 
les fractions homologies de chaquc pairc dc genes. 

II est en fin inicrcssani dc notcr que la region chromosomiquc 8p2.1 est 
impliquee dans dc nombrcuscs pathologies, notammcnt cancercuscs : on citcra par 
5 excmplc Ic carcinomc hepatocellular (Becker et al., 1996), le cancer du poumon non a 
pctites cellules (Sundarcshan cl Augustus, 1996), le cancer de la prostate (Ichikawa ct 
al., 1996), ct le carcinoma colorectal (Yaremko ct al., 1994). Bien que ccci n'ait jamais 
etc documcnte, il est possible qu'unc dellcicnce en Tune ou ('autre des. defensincs ' 
humaincs ait un role dans la predisposition a dc telles pathologies, ou dans leur 
10 developpement. 

La prcsenle invention concerne une nouveltc . defensine humainc, Def-X, 
homologue dc.la defensine HNP-4. 

La presentc invention a done pour objet un polypeptide isole choisi parmi les 
polypeptides suivants : 
15 a) polypeptide dont la sequence d'acides amines est la sequence SEQ ID N° 3 ; 

b) polypeptide homologue, variant, ou modific du polypeptide dont la sequence 
d'acides amines est la sequence SEQ ID N° 3 ; 

c) polypeptide dont la sequence d'acides amines est la sequence d'acides amines d'un 
fragment biologiquemcnt actif d'un polypeptide tel que dcfini en a) ou b) ; 

20 d) • polypeptide comprenant au moins un fragment tel que dcfini en c). 

Dans la presentc description, on entendra designer cgalcmcnt par 
« polypeptide » une proteine ou un peptide 

Selon un mode prefere, le polypeptide scion Tinvcntion est caractcrise en ce 
qu'il est constitue dc Tun au moins des fragments suivants : 
25 a) peptide signal dont la sequence d'acides amines est la sequence SEQ ID N° 4 ? 

correspondant a la sequence comprise entre la position I ct la position 19, 
extremites comprises, de la sequence d'acides amines SEQ ID N° 3 ; 

b) region pro dont la sequence decides amines est la sequence SEQ ID N° 5, 
correspondant a la sequence comprise entre la position 20 ct la position 63, 

30 extremites incluses, de la sequence d'acides amines SEQ ID N° 3 ; 

c) peptide mature dont la sequence d'acides amines est la sequence SEQ ID N° 6, 
correspondant a la sequence comprise entre la position 64 ct la position 94, 
extremites incluses, de la sequence d'acides amines SEQ ID N° 3 ; ou 

d) fragment homologue, variant ou modifie d'un peptide scion a), b) on e). 
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Dc fagon encore prcfercc, les polypeptides scion la prcscme invention 
correspondent a la structure primairc de la defensinc mature definic prcccdcmment, 
c'esl-a-dire la structure correspondant a la sequences d'acides amines SRQ ID N° 6 
suivantc : 

5 lie Cys \ lis Cys Arg Val Leu Tyr Cys lie Phc Gly Glu His Leu Gly Giy Thr Cys 

Phc lie Leu Gly Glu Arg Tyr Pro lie Cys Cys Tyr 
scs homologies, variants ou formes modifiees ainsi que lours fragments biologiquemcnt 
actifs et les polypeptides les contcnant. 

II est bien entendu que les polypeptides de Pinvention sont sous forme non 
10 naturelle, e'est-a-dire qu'ils ne sont pas pris dans lour environnemcnt naturel mais qu'ils 
ont pu etrc obtcnus par purification a partir de sources namrclles ou bien obtenus par 
recombinaison genctique ou par synthesc chimiquc conime ccla sera decrit ci-apres. 

- Par « polypeptide homoldgue », on entend un polypeptide dont la sequence 
d'acides amines presente au minimum 80 %, et preferenticllemcnt 90 %, d'acides 
1 5 amines en commun. 

Par « polypeptide variant)), on entend designer un polypeptide mute ou 
correspondant a un polymorphisme pouvant cxistcr, notammcnt chez Poire humain et 
pouvant presenter unc troncalurc, unc substitution, unc deletion ct/ou unc addition d'au 
moins un acidc amine compare au polypeptide scion Pinvention. 
20 Par « polypeptide modific», on entend designer un polypeptide obtcnu par 

recombinaison genctique ou par synthesc chimiquc commc ccla sera decrit ci-aprcs, 
presentant une modification par rapport a la sequence normalc. Ccs modifications 
pourront notamment porter sur les domaines pre-, pro- ou mature du polypeptide scion 
Pinvention, sur les acides amines a Porigine d 1 une specificite de spectre ou d'efficacite 
25 de Pactivite, ou a Porigine de la conformation structurale, de la charge, ou de 
Phydrophobicite, et de la capacitc dc multimerisation et d'inscrtion membranairc du 
polypeptide selon Pinvention. On pourra ainsi creer des polypeptides d'aclivite 
equivalente, augmentee ou diminuec, et de specificite equivalents plus etroitc, ou plus 
large. Les modifications pourront aussi porter sur les sequences impliquees dans la 
30 maturation, le transport et Padressage du polypeptide. ( 

Par « fragment biologiqucment actif » d'un polypeptide scion Pinvention, on 
entend designer un fragment polypcptidiquc ayant conserve au moins une activitc du 
polypeptide dont il est issu, en particulier : 

• capable d'etre reconnu par un anticorps specifique d 1 un polypeptide selon 
35 Pinvention , et/ou 
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• capable d'agir comiuc antibiotique ; ct/ou 

• capable d'agir commc agent cytotoxique ; ct/ou . 

• . capable d'agir commc agent antilumoral ; et/ou 

• capable cle modulcr la reparation de tissu, la regulation endocrine on le processus 
5 -d'innammalion, notammcnt durani une infection 

Scion Pinvciuion, les fragments biologiquement actifs de polypeptides scion 
rinvention auront au mininuim 10 acides amines, cle preference 15 acides amines. 

Commc cela a etc indique precedemment, parmi les fragments 
biologiquement actifs, tin fragment prefere est le peptide mature de sequence d'acides 
10 amines SEQ ID N° 6. 

Parmi les homoiogues du peptide mature, il faut citer les polypeptides dans 
lesquels jusqu'a 5 acides amines ont etc modifies, ironqucs a I'cxtrcmiic N- on C- 
tcrminale, ou bien deletes, ou bien ajoutes, cc qui represente environ SO % de .ia 
sequence. 

15 Les fragments biologiquement actifs de ce peptide mature component de 

preference de 10 a 15 acides amines, dont I'intcrct pourra etre de pouvoir etre obtcnus 
facilcment par synthesc chimique. 

Commc cela est indique, les modifications du polypeptide mature auront 
pour objectif notammcnt de : 

20 - modulcr Tactivitc de la defensinc, 

- modifier sa spccificitc, tant au niveau des microorganismcs sur lesquels elle est active 
que sur sa localisation tissulairc, 

- modifier sa biodisponibilite. 

Les composes precedents peuvent etre obtenus en utilisa.nt la chimic 
25 combinatoire, dans laquclle il est possible.de faire varicr systematiquemcnt des parties 
de polypeptide avant de les tester sur des modeles, cultures ' ccllulaires ou des 
microorganismes par exemple, pour selcctionncr les composes les plus actifs ou 
presentant les proprietes rechcrchees. 

La synthesc chimique prcscntc cgaicmcnt 1'avantagc dc pouvoir utiliscr : 
30 - des acides amines non naturels, ou - 

- des liaisons non peptidiques. 

Ainsi, afin d'ameliorcr la durec de vie des peptides, il pourra etre intcrcssant 
d'utiliscr des acides amines non naturcls, par exemple sous forme D, ou bien des 
analogues d'acides amines, notammcnt des formes soufrces par exemple. 
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Enfin, la structure dc la defensinc mature ou de scs homologucs, variants ou 
modifies, dc memo que les fragments corrcspondam, pourront etrc inlcgrcs dans des 
structures chimiqucs de type polypeptidique ou auircs. Ainsi, il pourra etre intcrcssani de 
prcvoir aux.cxtremites N- et C-tcrminalcs des composes non reconnus par les proteases. 
5 L' invention comprend cgalcmcnt les acides nucleiques codant pour tin 

polypeptide selon r invention. 

Selon un mode prclcre, les acides nucleiques selon Tinvention scront choisis 
parmi les acides nucleiques suivants : 

a) .acide nucleique de sequence SEQ ID N° 1 (genomiquc) ; 
10 b) acide nucleique de sequence SEQ ID N° 2 (cDNA) ; 

c) ..acide nucleique equivalent, homologue, mute ou modiile, par rapport aux acides 

nucleiques selon a) ou b) ; 

d) fragment des sequences a), b) ou c) ayant au moins dix bases ; 

e) acide nucleique capable de s'hybridcr avee Tunc des sequences tclles que definies 
1 5 en a), b), c) ou d). 

II est entendu que la presente invention ne conccrnc pas les sequences 
genomiqucs dans leur environncmcnt chromosomiquc nature! ; il s'agit de sequences qui 
ont etc isolccs, e'est-a-dire qu'cllcs ont etc prctcvccs dircctcmcnt ou indircctcmcnt, leur 
environncmcnt ayant etc au moins particllcmcnt modific, 
20 H pcut ainsi s'agir d'ADN genomiquc, d'ADNc, ou d'ARN, component ou 

non des nucleotides non naturels ; i! pcut s'agir d'acides nucleiques naturels isoles, ou 
decides nucleiques de synthase. ' 

Par acide nucleique equivalent, on entendra un acide nucleique codani pour 
les polypeptides selon I 1 invention, compte tenu de la degenerescence du code genetique, 
25 et les ADNc et ARN correspondants. 

Par acide nucleique homologue, on entendra un acide nucleique dont la 
sequence presente une homologie d'au moins 80 %, de preference 90 %, avec les 
sequences nucleiques selon T invention. 

Par acide nucleique mute, on entendra tout acide nucleique codant pour un 
30 polypeptide variant selon V invention, et tout acide nucleique comportant, par rapport 
aux sequences SEQ ID N° 1 et SEQ ID N° 2, au moins une mutation dans les sequences 
promotrices et/ou regulatrices, lesquelles pourront avoir un effet sur repression du 
polypeptide notammcnt sur son taux d'expression et la tissu-spccificitc dc celle-ci. Les 
sequences presentant un polymorphisme present chez I'etre humain sont done incluses 
35 dans Tinvention. Parmi ces polymorphismes, certains pourront conduire a des 
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dcficiciiccs immunitaircs, dc reponse aux infections, a dcs predispositions ct/ou au 
dcvcloppcmcnt dc cancers. 

Par acidc nuclciquc modifie, on ciUcndra tout acidc nuclciquc codant pour 
un polypeptide modi fie scion r'mvention, ou tout acidc nuclciquc obtcnu par nuitagenese 
5 scion dcs techniques bicn connucs dc IMiommc dc ran, et comportant dcs modifications 
par rapport aux sequences normales, notamment dcs mutations dans les sequences 
rcgulat rices ct/ou promotriccs, notamment conduisant a une modification du taux ct/ou 
de la tissu-spccificitc dc I 'expression du polypeptide. 

La prescnte invention conccrne ('ensemble dcs amorces ct sondes, qui 
10 pouiTont ctre marquees selon des methodes bicn connucs de Thomme du metier, 
permcttant dc mcttrc en evidence, notamment par dcs techniques basees sur 
rhybridation ou sur ^amplification, par cxcmple par PCR, les sequences nuclciqucs 
selon ('invention, y compris dc discrimincr les sequences normales des sequences 
mutees. 

15 Parmi les fragments d'acides nuclciqucs intcressants, il faut citcr en 

particulicr les oligonucleotides anti-sens, e'est-a-dire dont la structure assure, par 
hybridation avee la sequence ciblc, une inhibition dc l'cxprcssion du produit 
correspondant. II faut encore citcr les oligonucleotides sens qui, par interaction avee dcs 
protcincs impliquccs dans la regulation dc l'cxprcssion du produit correspondant, 
20 induiront soil une inhibition, soit une activation dc ccttc expression. 

II pourra s'agir de sequences qui agisscnt aussi bicn au niveau dcs sequences 
exoniqucs ou introniques decrites que sur les sequences llanquantcs, notamment les 
promoteurs et/ou regions 5' UTR. 

La presente invention conccrne egalemcnt dcs vecteurs de clonage ou 
25 d'expression comportant une sequence nucleotidique telle que decrite preccdemment. 

Ces vecteurs de clonage ou d'expression pourront comporter des elements 
assurant Texpression de la sequence dans une cellule bote, notamment dcs sequences 
promotrices et des sequences de regulation efficaccs dans laditc cellule. 

Le vecteur en cause pouvant etrc a replication autonome ou bicn destine a 
30 assurer r integration de la sequence au sein des chromosomes dc la cellule bote. 

Dans le cas de systemcs a replication autonome, cn fonction dc la celluic 
hote, procaryote ou eucaryote, on utiliscra dc preference des systcrnes dc type 
plasmidique ou des systemes viraux, les virus vecteurs pouvant. etre notamment des 
adenovirus (Perricaudet et al., 1992), des retrovirus, des poxvirus ou des virus 
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herpetiques (Epstein et al., 1992). L'hommc dc metier connail Ics. technologies 
utilisables pour chacun de ces virus. 

Ainsi, il est cpnnu d'utiliscr commc vccteur viral dcs virus dcfectifs dont la 
culture est cflectucc dans dcs cellules dc complementation, ccci cvitanl les risqucs 
5 cventucls dc proliferation d'un vccteur viral infectieux. 

Lorsque Ton souhaitcra ('integration de la sequence dans les chromosomes 
de la cellule hote, il sera ncccssairc dc prevoir de part et d'autre de la sequence 
nucleotidique a integrcr unc ou plusieurs sequences provenant de la cellule hote afin 
d'assurer la recombinaison. 11 s'agit la egalement de procedes qui sont largcmcnt decrits 
10 dans la technique anterieure. On pourra, par cxemple, utiiiser des systemes de type 
plasmidique ou viral ; de tels virus seront, par exemple, les retrovirus (Temin, 1986) ou 
les AAV, Adenovirus Associated Virus (Carter, 1993). 

L'invention concerne egalement les cellules procaryotes ou eucaryotes 
transformers par un vecteur tel que decrit preccdemment et ceci afin d'assurcr 
15 l'expression d'une defensine Def-X naturelle, normale ou variante, ou modifiee, ou bien, 
par exemple, d'un de ses fragments. 

Comme cela a ete indique preccdemment, la presente invention concerne 
egalement les polypeptides obtenus par culture des cellules ainsi transformecs ct 
recuperation de la proteine exprimec, laditc recuperation pouvant ctre efFcctuce dc fa?on 
20 intracellulaire ou bien de fa^on extracellulairc dans le milieu dc culture lorsque 1c 
vecteur a ete con£u pour assurer la secretion de la proteine par le biais. par exemple, 
d'une sequence "signal", le polypeptide etant sous forme d'un pre-polypeptide ou 
prepro-polypeptide. Les constructions permettant la secretion des polypeptides sont 
connues, aussi bien pour des systemes procaryotes que des systemes eucaryotes. Dans le 
25 cadre de la presente invention, certains des polypeptides Def-X pourront comporter leur 
propre systeme de sdcr£tion ou d' insertion membranaire. 

11 est bien entendu que les polypeptides recombinants . selon l'invention 
peuvent etre obtenus sous forme glycosylee ou non giycosylee et presenter ou non la 
structure temaire naturelle. 
30 Parmi les cellules utilisables pour la production de ces polypeptides, il faut 

citer bien entendu les cellules bacteriennes (Olins et Lee, 1993), mais egalement les 
cellules de levure (Buckholz, 1993), de meme que les cellules animales, en particulier les 
cultures de cellules de mammifere (Edwards et Aruffo, 1993) mais egalement les 
cellules d'insectes dans lesquelles on pent utiiiser des procedes mettant en oeuvre des 
35 ba,:ulovirus par exemple (Luckow, 1993). 
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Les cellules ainsi obtenues pcuvent penncttre dc preparer des polypeptides 
naturcls. variants ou modifies, Def-X, niais cgalcmcnt des fragments dc cos 
polypeptides, notammcnt des polypeptides pouvant corresponds aux fragments 
biologiqucmcnt actifs. 

5 La presente invention concernc, en outre, lcs monies polypeptides scion 

Tinvention mais obtcnus par synthese chimiquc ct pouvant comportcr des acides amines 
non naturcls ou modifies. 

Les polypeptides selon la presente invention, en particulier la defensinc 
mature, de meme que les homologues, derives ou polypeptides matures modifies, 
10 peuvent etre obtcnus par synthese chimique et cc en utilisant Tune queiconque des 
nombreuses syntheses peptidiques connues, par cxemplc les techniques mettant en 
osuvre des phases solides ou des techniques utilisant des phases solides partiellcs, par 
condensation de fragments ou par une synthese en solution classique. 

Lorsque les composes selon la presente invention sont synthetises par la 
15 methode en phase solide, l'acide amine C-tcrminal est fixe sur un support solidc incite el 
comporte des groupes protectcurs de son groupement amino en alpha (et si ccla est 
necessaire, des protections sur ses groupes fonctionnels latcraux). 

A la fin de cette etape, 1c groupe protcctcur du groupement amino terminal 
est climine et on fixe le second acide amine comportant lui aussi lcs protections 
20 necessaires. 

Les groupes protecteurs N-tcrminaux sont elimines apres que chaque acidc 
amine a ete fixe, par contre on mainticnt, bien entendu, ia protection sur lcs chalnes 
laterales. 

Lorsque la chaine polypeptidique est complete, on clive le peptide de soil 
25 support et on elimine les groupes de protection lateraux. 

La technique de synthese en phase solide est ddcrite notammcnt dans Stewart 
et al. (1984) et Bodanszky (1984). 

II ne sera pas ici evoque les details de la synthese, il convient simplcmcnt dc 
rappeler que les groupes protecteurs preferes pour les groupements alpha-amino sont des 
30 groupes protecteurs de type urethane (DOC ou FMOC). Quant aux reactifs de couplage, 
ils sont tres nombreux, parmi eux il faut bien entendu citer plus particulierement la N,NT- 
diisopropyl-carbodiimine (DIC) mise en oeuvre en general dans le DMF ou le DCM. 

Lorsque Ton souhaitera utiliser des amino-acides non naturels, il pourra etre 
necessaire de prevoir d'autres types de reactif et en particulier d'autres types de systemc 
35 de protection. 
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La presente invention concernc cgalemcnt les anticorps polyclonaux ou 
monoclonaux obtenus par reaction " immunologiquc d'un organismc humain ou animal 
avee un agent immunogene constitue par un polypeptide, scion 1' invention, notammcnt 
un polypeptide obtcnu par culture cTunc des cellules prccedcmmcnt decrites, ou par 
5 synthese chimiquc commc indiquc prccedcmmcnt. 

L' invention s'ctend done aux anticorps monoclonaux ct polyclonaux ou un 
dc leurs fragments, anticorps chimcriqucs, capables dc rcconnaitrc specifiquement un 
polypeptide selon Tinvention. 

L'invention cpmprend aussi les anticorps selon Tinvention, caracterises en ce 
10 qu'ils sont marques. 

Les anticorps marques pourront etre, par exemplc, immunoconjugues a des 
enzymes telles que la peroxydase ou la phosphatase alcalinc, ou marques a Taidc dc 
composes fluorescents, de la biotine ou encore radiomarques. Les techniques de 
marquage sont bien connucs de Thomme du metier et ne seront pas developpees dans la 
15 presente description. 

L'invention s'ctend cgalemcnt a Tutilisation d'un polypeptide selon 
Tinvention comme agent antimicrobicn, notammcnt antibacterien, antifongique, antiviral 
et/ou antip'arasitaire, commc agent cytotoxique, a visee notammcnt antieancereuse, et/ou 
comme agent de modulation des processus d'inflammation, de reparation tissulairc ct dc 
20 regulation endocrine, notammcnt corticostatiquc. 

Selon un autre aspect, Tinvention concernc unc composition pharmaceutiquc 
comprenant un polypeptide scion Tinvention, pouvant etre associee a un vchicule 
pharmaceutiquement acceptable. 

Une telle composition pourra etre administree par voie systemique, locale ou 

25 topique. 

Son mode d'administration, sa posologie, ses formes galeniques optimales 
pourront etre determines selon les critcres gencralement pris en compte dans 
r&ablissement d'un traitement adapte a un patient, notamment son age, son poids 
,corporel, la tolerance de traitement, ses effets secondaires constates, etc.. 
30 L'invention comprend egalcment une composition pharmaceutiquc 

comprenant un vecteur selon Tinvention capable d'exprimer in vivo un polypeptide selon 
Tinvention, pouvant etre associe a un vehicule pharmaceutiquement acceptable. 

II est egalement possible de prevoir Texpression de polypeptides ou leurs 
fragments /'/; vivo, notamment par le biais de la therapie genique et en utiftsant les 
35 vecteurs qui ont ete decrits precedemment. 
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Dans le cadre de la therapic. genique, il est possible egalement de prcvoir 
1 'utilisation des sequences des genes ou des ADNc precedcmmcnt decrits, "nus", cctte 
technique a notammcnt 6te dcvcloppcc par la societc Vical, qui a montrc qu'il ctait, dans 
ccs conditions, possible d'exprimcr Ic polypeptide dans certains tissus sans avoir rccours 
5 au support d'un vectcur viral notammcnt. 

Toujours dans lc cadre de la therapic genique, il est egalement possible de 
prevoir ['utilisation de cellules transformecs cx-vivo, lesquellcs pourront etre ensuite 
reimplantees, soit tellcs quelles, soit au sein de systemcs de type organotde, tel que cela 
est egalement connu dans Tetat de la technique (Danos et al. 1993). On peut egalement 
10 envisager ('utilisation d'agents facilitant le ciblage d'un type cellulairc determine, la 
penetration dans les cellules ou le transport vers le noyau. 

Lesdites compositions pharmaceutiques sont, selon Tinvention, destinees a la 
prevention et/ou au traitement des infections microbiennes, notamment les infections 
microbiennes d'origines bacteriennes, de bacteries Gram-positives ou Gram-negatives,. 
15 mycobacteriennes, fongiques et virales, ou parasitaires, notamment de spirochetes. 

Selon un mode prefere, Tinvention concerne avantageusement les 
compositions pharmaceutiques selon Tinvention caracterisees en cc que les infections 
virales sont des infections liees a des virus a enveloppe, notamment les virus HSV ct 
HIV. 

20 L'invention a egalement pour objet des compositions pharmaceutiques selon 

Tinvention, destinees a la prevention et/ou au traitement des cancers, notammcnt les 
melanomes, le cancer du foie, de la prostate, du poumon non a petites cellules ou lc 
carcinome colorectal. 

L'invention comprend, en outre, des compositions pharmaceutiques selon 
25 Tinvention, destinees a augmenter les defenses immunitaires, a augmenter les defenses 
immunitaires en cas. d'immunodeficience acquise ou a pr6venir i'immunodeficience, 
notamment pour le traitement du psoriasis, ou a moduler les processus inflammatoires 
dans les cas notamment de maladies a inflammation chronique. 

Les polypeptides selon la presente invention sont plus particulierement 
30 utilisables sous forme topique externe, par exemple sur la peau et les muqueuses. Ces 
formes topiques externes peuvent etre aussi bien a usage pharmaceutique, 
dermatologique qu'a usage cosmetique. 

En particulier, ces compositions peuvent etre utilisees comme agent 
antiseptique pharmaceutique ou bien comme antiseptique dans certains cosmetiques, soit 
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pour assurer un nettoyage de la peau ou dcs phaneres et/ou a litre dc conservateur des 
compositions. 

Lcs compositions topiqucs scion la prescnte invention pcuvent ctre utilisccs 
notamment dans ccrtaincs affections cutanccs, oculaircs, vaginalcs ou buccalcs. Ellcs 
5 peuvent cgalcment ctre utilisccs commc agent cosmctiquc additionncl, notamment dans 
certains shampooings traitants. 

L'invcntion conccrne cgalcment la misc cn evidence dc Tabscnce ou d'une 
quantite anormale de proteine. ou d'acide nucleique corrcspondant a la defensine X 
commc marqueur d'une infection ou de pathologies qui seront decrites ci-apres. 
10 L'invention concerne egalement la mise en evidence d'une forme anormale. 

de la proteine ou la presence d'un acide nucleique anormal corrcspondant a une 
defensine mutee qui peut eventuellemcnt etre totalcment inactive. Dans ce cas, la 
presence de cette forme anormale peut ctre un marqueur de predisposition a cenaincs 
affections, notamment 1'immunodcficience et/ou des cancers. 
15 C'est pourquoi, la prescnte invention concerne une methodc dc diagnostic 

d'une immunodeficience et/ou d'une predisposition a certains types de cancers, 
caracterisee en ce qu'on met en evidence dans un prelevement de patient la presence 
d'une defensine anormale et/ou d'une sequence codant pour une defensine anormale. 

Les methodes de diagnostic scion la prescnte invention pcrmcttcnt, 
20 notamment, la mise cn evidence d'une immunodeficience, et/ou d'une predisposition a 
un ou des cancers, notamment ceux cites precedemment, en particulier dans des families 
a risque. Ce type de diagnostic sera cn general effectue par misc cn evidence des formes 
mutees de la proteine. ou des sequences d'acide nucleique. 

Mais T invention concerne egalement des methodes de diagnostic de 
25 l'inflammation, d'immunodeficience, de predisposition a des affections de type cancer 
et/ou defections dues & des microorganismes ou li£es a un deficit irnmunitaire ou 
phenomene inflammatbire, caracterisees en ce qu'elles comprennent le dosage d'un 
polypeptide ou d'un acide nucleique selon Tinvention dans un dchantillon biologique et 
la comparaison du resultat dudit dosage obtenu avec la quantite de polypeptide ou 
30 d'acide nucleique presente normalement dans un echantillon biologique equivalent. 

Dans ce cas, le dosage peptidique permettra, en general, une detection d'une 
infection microbienne ou parasitaire et/ou d'une inflammation. Les dosages peptidiques 
peuvent etre realises par tout proccde connu, ELISA ou RIA par exemple. La mise en 
evidence d'une forme anormale de la defensine-X peut etre realisee, par exemple, a 
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l'aide d'un anticorps monoclonal specificjue de cctte forme, en particulier ics anticorps 
objct dc ['invention. 

Selon un mode dc realisation prefcre, I' invention comprend avantageuscmcm 
les methodes caractcrisccs en cc qu'clles mcttent en oeuvre unc sonde ct/ou unc amorce 
5 oligonuclcotidiquc scion ['invention. 

On prcferera en general les methodes dans Icsqucilcs tout ou panic de la 
sequence correspondant au polypeptide Def-X est amplificc prealablcmcnt par dosage 
d'acide nucleique selon Tinvention; ccs methodes d'amplification pouvant etre rcalisces 
par des methodes dites PCR ou PCR-like. Par PCR-like on entendra designer toutcs les 
10. methodes mettant en oeuvrc des reproductions directcs ou indirectcs des sequences 
d'acides nucleiques, ou bicn dans lesquclles les systemcs de marquage ont etc amplifies, 
ces techniques sont bien entendu connucs, en genera! il s'agit de ramplification de 
I'ADN par une polymerase ; lorsque l'cchantiilon d'origine est un ARN il convient 
prealablement d'effectuer une transcription reverse. II existe actuellement de ires 
15 nombreux procedes permettant cctte amplification, par exemple les methodes dites 
NASBA "Nucleic Acid Sequence Based Amplification* (Compton 1991), TAS 
"Transcription based Amplification System" (Guatelli ct al. 1990), LCR "Ligasc Chain 
Reaction" (Landegren et al 1988), "Endo Run Amplification" (ERA), "Cycling Probe 
Reaction" (CPR), et SDA "Strand Displacement Amplification" (Walker ct al. 1992), 
20 bien connues de I'homme du metier, 

L'invention conccine en outre des kits ou nccessaires dc diagnostic pour la 
determination d'une infection microbienne ou parasitaire, d'une inflammation, d'une 
immunodeficience et/ou d'une predisposition a des affections de type cancer, 
caracterises en ce qu'ils comprennent un anticorps selon Tinvention. 
25 Les kits ou necessaires de diagnostic pour la determination d'une infection 

microbienne ou parasitaire, d'une inflammation, d'une immunodeficience et/ou de 
predisposition a des affections dc type cancer, caracterises en ce qu'ils comprennent unc 
sonde et/ou une amorce selon l'invention font egalement partie de l'invention, 

L'invention a, enfin, pour objet ('utilisation de polypeptide selon l'invention 
30 comme pesticide, notamment pour la culture de vegetaux d'interet industriel comme, par 
exemple, les plantes vivrieres tellcs que le mai's, le ble, !e soja, le riz ou le colza, les 
plantes fourrageres, les arbres fruitiers, la vigne ou les plantes ornementales. 

D'autres caracteristiques et avantages de la presente invention apparaitront a 
la lecture des exemples ci-apres, illustres par les figures dont les legendes sont decrites 
35 ci-dessous. 
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Lcg cndcs dcs fi gurcs 
Figure 1 

Sequence genomique de hDcf-X. 

list presentee la lotaliic de la sequence cTADN genomique de hDef-X qui presente une 
5 homoiogio significative avee le gene codant pour hDef-4 (I INP-4). 

La sequence presente les sites suivants, dont la presence est deduile par homologie avee 
la sequence hDef-4 : 





► CAAT box 


1711-1714 




• TATA box 


1758-1767 


10 « 


» mRNA start 


1836 




> ..exon 1 


1836-1874 




> site d'epissagc 1 


GTCAGT 




» insertion Alu 


2155-2335 




» insertion fragment de LI 


2710-2780 


15 ■ 


» site d'epissagc 2 


CAG 




• exon 2 


3394-3577 




• debut de phase codante 


3406 




• site d'epissagc 3 


GTGAGA 




• site d'epissage 4 


CAG 


20 


• exon 3 


4164-4379 




• fin de phase codante 


4276 




• site de polyadenylation 


4374-4379 



Figure 2 

Alignement des sequences genomiques des defensines huinaines Def-X ct Def-4 (HNP- 
25 4). 

Alignement de la totalite de la sequence d'ADN genomique de la nouvclle defensine 
Def-X presentant une homologie avee V ADN genomique de hDcf-4 (GcnBank accession 
number U18745). 

Les annotations presentcnt les positions sur la sequence de hDef-4 dcs signaux CAAT 
30 box, TATA box, sites d'epissagc, debuts ct fins d'introns/d'exons, debut de 
transcription, site de polyadenylation. 
Figure 3 

Alignement des sequences d' ADNc de hDef-4 (HNP-4) et hDef-X. 

Les sequences presenters une homologie globale de 6L4 %. L'alignemetu rcvele une 
35 insertion d'environ 75 bases en aval du codon STOP, prcsentes sur la sequence de hDef- 
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4, mais non sur celle de hDcf-X ; rhomoiogie forte reprend sur toutc la region comprise 
entre l*extrcmite de ccttc insertion et ccllc dc l'ADNc. En dehors dc ccttc region 
d'inscrtion, le degrd d'homologie entre sequences nuclciqucs est done rcmarquable. 
, Figure 4 

Sequence peptidique dc la proteinc hDcf-X. 

La position des sites de clivagc du signal peptide ct dc la region pro ont etc deduites do 
I'altgncmcnt des sequences peptidiqucs de hDcf-4 ct hDcf-X. 
Figure 5 

Alignement des sequences peptidiques des defensines humaincs connues hDcf-1, hDef- 
4, hDef-5, et hDef-6 avec hDcf-X. 

* L/etoile indique un acide amine conserve sur les cinq sequences. 

• Le point indique un acide amine dont la classc est conservee sur les cinq sequences 
t (acide amine soit identique, soit faisant I'objet d'une substitution conservative), 

A six fleches indiquent les "positions des six cysteines conservees au travers de la 
ciasse des defensines classiques et responsables de la structure tridimensionnelle 
necessaire a Tactivite de ces peptides. 

EXEMPLES 

20 Excmplc 1 : Identification du gene codant pour hDcf-X 
Isolcment du BAC BQ72SB12 

Afin d'analyser la region 8p23 du genome humain, notamment dans la 
rdgion connue comme portant des genes codant pour des defensines humaines, on a isole 
un BAC ("Bacterial Artificial Chromosome") correspondant a ladite region. Une banque 
25 de BACs couvrant le genome humain complet a ete pr^paree a partir de 1'ADN d'une 
lignee lymphoblastique humaine derivee de Tindividu n° 8445 des families du CEPH. 
Cette lignee a it6 utilisee comme source d'ADN de haut poids moleculaire. L' ADN a ete 
partiellement diger6 par Tenzyme de restriction BamHl, puis clon£ au site BamHl du 
plasmide pBeloBacII. Les clones ainsi obtenus ont ete "pooles" et cribles scion une 
30 procedure d'analyse tridimensionnelle precedemment decrite pour le criblage des 
banques de YACs ("Yeast Artificial Chromosome") (Chumakov et al., 1992 et 1995), 
Les pools tridimensionnels obtenus ont ete cribles par PCR a i'aide des amorces 
encadrant le marqueur SHGC- 1079.1, pour Neutrophil defensin 4 precursor (GeneBank : 
numero d'accession U 18745) ; un clone du BAC B0725 B 12 a ete ainsi isole. 



10 
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Apres digestion par 1'cnzymc de restriction NotI, la taille de I'insert porle par 
ce BAC a 6te determin6e sur un gc! d'agarosc 0,8 % apres migration par elcctrophorese 
en champ aiternd (CHEF) (4 hcurcs a 9 Volts/cm, avee un angle dc 100°, a ll°C cn 
tampon 0,5 x TAE). On a ainsi mis en evidence que lc BAC B0725B12 pone un insert 
5 de 220 kb, avec un site interne pour Tcnzymc Notl. 

Localisation chromosomiquc dti BAC B0725B12 par hybridation in situ fl u orcsccnt c 
(FISH) 

La localisation chromosomique du BAC dans la region candidate 8p23.l- 
23.2 a ete confirmee par hybridation in situ fluorescente (FISH) sur chromosomes 
10 metaphasiques, selon la methode decrite par Chcrif et al. t (1990). . 
Scquenyage de Tinsert du BAC B0725B12 

A fin- de sequencer Pinsert du BAC B0725B12, on a prepare une banque de 
sous-clones a partir de V ADN sonique dc ce BAC. 

Les cellules issues d'un litre de culture "overnight" ont etc traitees par iyse 
15 alcaline selon les techniques classiqucs. Apres centrifugation du produit obtenu dans un 
gradient de chlorure dc cesium, 12 ng d'ADN du BAC B0725B12 ont ete purifies. 3 jig 
d'ADN ont ete soniques afin d'obtcnir des fragments dont les tailles se distribuent 
uniformement de 1,2 kb a 1,5 kb. Les fragments obtcnus ont ete traites dans un volume 
de 50 \x\ avec 2 unites de Vent polymerase pendant 20 minutes a 70°C, en presence des 4 
20 deqxytriphosphates (100 |iM). Les fragments aux extremites franches resultant dc cettc 
etape ont ete separes par elcctrophorese en gel 1 % d'agarose a bas point de fusion (60 
Volts pendant 3 heures). Les fragments groupes selon leurs tailles ont £te excises ct les 
bandes obtenues traitees par Tagarose. Apres extraction au chloroforme et dialyse sur 
. colonnes Microcon 100, TADN en solution a ete ajuste a une concentration de 100 ng/|il. 
25 Une ligation a £te effectuee "overnight" en mettant en presence 100 ng de l'ADN 
fragment^ du BAC B0725B12 et 20 ng d'ADN du vecteur BluescriptSK linearise par 
digestion enzymatique, et traite par la phosphatase alcaline. Cette reaction a ete realisee 
dans un volume final de 10 (il en presence de 40 unit^s/jil de T4 ADN ligase (New 
England Biolabs). Les produits de ligation ont ensuite servi a transformer par 
30 61ectroporation, soit une souche XL-Blue (pour les plasmides multicopies), soit une 
souche D10HB (pour les sous-clones issus du BAC). Les clones lacZ" resistant a 
Tantibiotique ont &t£ repiques individuellement en microplaques pour stockage et 
sequen^age. 

On a ainsi obtenu 960 sous-clones correspondant a ('insertion de fragments 
35 de 1,2 kb a 1,5 kb au site BamHI (rendu franc) du plasmide BluescriptSK. 
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Les inserts de ccs sous-clones ont ete amplifies par PCR sur cultures 
bacterienncs conduitcs "overnighf, en utilisant les amorces des vecteurs flanquant les 
insertions. La sequence des cxtrcmitcs dc ccs inserts (en moyenne 500 bases dc cliaquc 
cote) a etc dctcrmincc par sequenfage automatiquc fluorescent sur scqucnccur AI3I 377, 
5 equipc du logicicl ADI Prism DN A Sequencing Analysis (version 2. 1 .2). 

Les fragments de sequence provenant des sous-BACs ont ete assembles par 
le logiciel Gap4 de R. Staden (Bonfield ct al., 1995). Ce logicicl permet la reconstruction 
d'unc sequence complete a partir dc fragments de sequences. La sequence deduite de 
1'alignement des difTerents fragments est la sequence consensus. 
10 On a enfin utilise des techniques dc sequengage dinge (marche systematique 

de 1'amorcc) pour parfaire les sequences ct relier les contigs. 
Analyse des sequences pour ['identification de genes 

Les exons potcntiels de rinsert du BAC B0725B12 ont ete reperes par 
recherche d'homologie sur les banques publiques de proteines, d'acides nucleiques el 
15 d'EST (Expressed Sequence Tags). 

Banques de donnees 

On a utilise des rcfontes locales des principals banques publiques. La 
banque de proteines utilisees est constitute par la fusion non redondante des banques 

20 Genpept (traduction automatique de GcnBank, NCBI ; Benson et al., 1996) ; Swissprot 
(George et al., 1996) et PIR/NBRF (Bairoch et a!. t 1996). Les doublons ont etc etimines 
par le logiciel "nrdb" (domaine public, NCBI ; Benson et al., 1996). Les repeiitions 
internes ont ensuite ete masquees par le logiciel 4i xnu M (domaine public, NCBI ; Benson 
et al., 1996). La banque resultante, denommee NRPU (Non-Redundant Protein-Unique) 

25 a servi de reference pour les recherches d'homologies proteiques. Les homologies 
trouvees avec cette banque ont permis dc localiser des regions codant potentiellement 
pour un fragment de proteine au moins apparente a une proteine connue (exons codants). 
La banque d'EST utilisee est composec des sous-sections u gbest" (1-9) de Genbank 
(NCBL; Benson et al., 1996). Elle contient tous les fragments dc transcrits publics. 

30 Les homologies trouvees avec cette banque ont permis de localiser des 

regions potentiellement transcrites (presentes su<r TARN messager). 

La banque d'acides nucleiques (autres que les EST) utilisee contient toutes 
autres sous-sections de Genbank et de l'EMBL (Rodriguez-Tome et al., 1996) dont les 
doublons ont etc elimines comme precedemment. 

35 
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Logic ids 

On a utilise I'cnscmbic cic logicicls BLAST (Altschu! et al . 1990) dc 
recherche d'homologics cntrc unc sequence et des banques de donnees protciqucs ou 
nucleiques. Lcs scuils de signification utilises dependent de la longueur el de la 
5 complcxitc de la region testee ainsi que de la taille de la banque de reference. Us out etc 
ajustes et adaptcs a chaque analyse. 

Kxcmplc 2 : jnndvsc des sequences nncloinnivs c( peptidiotuvs dc hI)ef-X 

Structure du gene codant pour hDcf-X 

10 ' L'aligncment du gene codant pour hDcf-X avec ccux codant pour lcs 

defensincs connues a permis dc noter unc homologie maximalc cntrc hDcf-X ct hDcf-4 
(Figure 2). Lc taux global d'homologic des deux sequences nucleiques est de'72 %. Lcs 
deux scutes regions de I'ADN genomiquc de hDcf-X nc presentant pas d'homologic 
avec eclui de hDcf-4 correspondent a deux zones d'insenion de sequence repeiee dans la 

15 sequence dc hDef-X, qui sont absentes sur la sequence de hDcf-4 : un clement dc lype 
Alu (positions 2155 a 2335) ct un fragment d'element dc Line I (positions 2710 a 2780). 

On note unc conservation importantc de la region flanquant en 5 1 la region 
promotricc, d'ou dccoulc probablcmcnt unc conservation importantc des elements dc 
regulation de la stabilitc du mcssagcr ct dc Tcxprcssion du gene. 

20 La forte conservation dc la sequence dc fexon 1, non traduit, permct dc 

rattachcr dcfinittvcmcnt la defensinc hDcf-X a la classc des defensincs classiqucs 
hematopoictiques, soit hDef-L 2, 3 et 4, par opposition aux defensincs. cntcriqucs hDcf-5 
et 6, dont la sequence genomique ne comportc que deux exons, tous deux codants. 

L'alignement des ADNc de hDcf-4 et hDcf-X, indiquant unc homologie 

25 supericurc a 60 % t est presente Figure 3. 
Analyse proteique 

La sequence peptidique de la defensinc selon l'invcntion est representee 
Figure 4. Les trois domaines de la proteine sont positionncs commc suit : 
. • . peptide signal : aa 1-19 

30 • region pro : aa 20-63 

• peptide mature : aa 64-94. 

Les degres d'homologies specifiqucs cntrc hDcf-4 et hDcf-X ont etc 
calcules, scion la region de la proteine cohcernce : 

• peptide signal : 63,2 % ■ 
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♦ region pro : 52,3 % 

• peptide mature : 37,9 %. 

L'homoiogic giobalc est do 49,5 %. Ccs chifTrcs confirment la trcs forte 
homologic qui existc cntrc defensincs, homologic maximalc au niveau des peptides 
5 signaux et minimalc au niveau des peptides matures. 

On rctrouvc dans la sequence protciquc primairc dc Dcf-X les acides amines 
conserves dans la classc des defensincs classiqucs, notamment les six cysteines 
impliquees dans la structure tridimcnsionnellc dc ccllcs-ci (Figure 5). 

Afin de prcdire les structures sccondaires presentes. sur la defensine scion. 
10 Tinyention, on a utilise les logicieis de prediction de structure secondairc inclus dans le 
Protein Interpretation Package, Copyright M"RG 1994, Medical Research Council, 
Hillsroad, Cambridge, United Kingdom. 

Ces logicieis ont notamment permis de comparer les structures predites de 
Def-X et HNP-4, Profits d'hydrophobicite, structures en alpha-helices, feuillets p, 
15 amphiphilicite sont superposables dans les deux peptides, ce qui suggere des processus 
analogues d'insertion membranaire et dc formation de canaux ioniqucs multimeriqucs 
pour ces deux defensines. 

Excmplc 3 : Recherche dc mutntions associccs A des ens familiaux dc cancers 
20 Extraction de TADN genomique 

L'ADN genomique de patients immunodeficients ou atteints de cancer, est 
extrait du sang veineux peripherique apres lyse cellulaire, digestion proteique, partition 
organique et finalement precipitation alcoolique, selon des techniques classiques bien 
connues de I'homme de Tart. 
25 II est notamment interessant d'etudier la presence de mutations dans TADN 

genomique d'individus issus de families a fort taux cancer, tous types de cancers 
confondus. Une deficience dans un gene dc defensine de granulocyte, tel hDef-X pcut en 
effet avoir un role dans la predisposition aux cancers, comme mentionric precedemment. 
Amplification de l'ADN genomique 
30 Des amorces cligonuclcotidiques sont utilisees pour ('amplification 

genomique des sequences exoniqucs dcrivees du BAC B0725B12 ; dies sont predites 
par analyse informatique, et defmies a l'aide du logiciel OSP (Hillier et al., 1991 ). 

Toutes ces amorces contiennent, en amont des bases specifiquement ciblees 
par 1'amplification, une queue oligonucleotidique universelle commune, destinee a 
35 permettre le sequen^age des fragments amplifies (PU 5'- 
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TGTAAAACGACGGCCAGT-3 ' pour Ics amorces en amoni, cl RP 
CAGGAAACAGCTATGACC-3' pour lcs amorces en aval). 

Lcs amorces oligonuclcolidiqucs sont synthetisccs scion la mcthode des 
phosphoramiditcs, stir un synthetiseur GUNSET UFPS 24. 1 . 
5 L'amplification dc chaquc sequence exonique prcditc est rcalisee par reaction 

d'ampiification en chainc par polymerase (PCR), dans lcs conditions suivantcs : 



Volume final 50 |il 

ADN genomique 100 ng 

MgC12 2 mM 

10 dNTP (pour chacun) 200 pM 

Amorce (pour chacune) 7.5 pmolcs 

AmpliTaq Gold DNA polymerase (Perkin) 1 unite 

Tampon de PCR (10X = 0.1 M Tris HC1 pH 8.3, 0.5 M K.C1) i X. 



L'amplification est realiscc dans un thermocycleur Perkin Elmer 9600 ou MJ 
15 Research PTC200 avec couvercle chaulTant. Apres un chauffage a 94°C -pendant 10 
minutes, 35 cycles sont effectues. Chaquc cycle comprend : 30 sccondes a 94°C, 1 
minute a 55°C et 30 secondes a 72°C. Un segment final d'elongation de 7 minutes a 
72°C termine ['amplification. 

La quantite dc produits d'amplification obtenuc est dcterminec sur 
20 microplaque de 96 puits, par fluoromctrie, utilisant l'agcnt intcrcalant Picogreen 
(Molecular Probes). 

Detection des polymorphismes/mutations 

Les produits de ramplification genomique par PCR sont sequences sur 
sequenceur automatique ABI 377 t en utilisant des amorces fluorescentes marquees par 
25 les fluorochromes ABI (Joe, Fam, Rox et Tamra) et TADN polymerase 
Thermosequanase (Amersham). 

Les .reactions sont realisees en microplaques de 96 puits, sur thermocycleur 
Perkin Elmer 9600, dans des conditions classiques de cycles de temperature : 

- 8 cycles : denaturation : 5 sec. a 94 °C ; hybridation : 10 sec. ; elongation : 30 sec. a 
30 72°C, puis 

- 13 cycles : denaturation : 5 sec. a 94°C ; elongation : 30 sec. a 72°C. 

6 unites de Thermosequanase, et 5-25 ng de produit d'amplification sont 
utilises par reaction de sequence. 

A Tissue des cycles d'amplification, les produits des reactions de sequence 
35 sont precipites dans l'ethanol, resuspendus dans du tampon de charge contenant de la 
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formamide, denatures, et deposes sur gels d'acrylamide 4 % ; les electrophoreses (2 
heurcs 30 a 3 000 Volts) sont conduitcs sur scqucnceurs ABI 377 equipcs dcs logiciels 
AD1 dc collection ct d'analysc (ABI Prism DNA Sequencing Analysis Software, version 
2.1.2.). : 
5 Les sequences obtenues chez des patients attcints dcs deHciences etudiees, 

notamment chez dcs patients issus de families a forte predisposition aux cancers, sont 
companies aux sequences obtenues chez des sujets comroles, apparentes et non 
apparentes. Une analyse statistique (calcul de lod score) pcrmet dc conclurc quant a la 
signification de la presence .d'tin site d'hetcrozygotie ct a son association avee une 
10 predisposition aux cancers. 

Excmple 4 : Recherche dc mutations ponctncllcs 

Les mutations ponctuellcs identifies comme indiquc ci-dessus, peuvent 
ensuite etre mises en evidence chez dcs sujets prescntant une potenticllc deficiencc dans 
15 le gene codant pour hDef-X, scion de nombreuses methodes connucs de Thomme dc 
Tart. Parmi celles-ci, on peut citcr la liste non exhaustive suivantc : 

• sequen<jage 

• « single nucleotide primer extension » (Syvancn et al., 1990) 

• RFLP 

20 • recherche de « single strand conformation polymorphism » 

• methodes basees sur un clivagc dcs regions misappariees (clivage enzymatique par 
la S 1 nuclease, clivage chimique par diffcrents composes tels que la piperidine ou le 
tetroxide d'osmium) 

• mise en evidence d'heteroduplex en ciectrophorese 

25 • methodes basees sur Putilisation d'« allele specific oligonucleotide)) (ASO, 
Stoneking et al., 1991) 

• methode OLA (« dual color oligonucleotide ligation assay, Samiotaki et al., 1994) 

• methode ARMS (« amplification refractory mutation system))), ou ASA (« allele 
specific amplification »), ou PASA (« PCR amplification of specific allele ») (Wu et 

30 al., 1989). 
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REVKNOICATIONS 

1) Polypeptide isole choisi parmi ics polypeptides suivanls : 
a) polypeptide dom la sequence d'acides amines est la sequence SP.Q ID N° 3 ; 
5 b) polypeptide homologuc, variant ou modifie du polypeptide dont la sequence 
decides amines est la sequence SEQ ID N° 3 ; 

c) polypeptide dont la sequence d'acides amines est la sequence d'acides amines d'un 
fragment biologiqucmcnt actif d'un polypeptide tel que defini cn a) ou b) ; 

d) polypeptide comprcnani au moins un fragment tel que defini en c). 

10 2) Polypeptide scion la rcvendication I, caracterise en cc qiPil est consume 

de Pun au moins des fragments suivants : 

a) peptide signal dont la sequence d'acides amines est la sequence SEQ ID N° 4 ; 

b) region pro dont la sequence d'acides amines est la sequence SEQ ID N° 5 ; 

c) peptide mature dont la sequence d'acides amines est la sequence SEQ ID N° 6 ; ou 
1 5 d) fragment homologuc, variant ou modifie d'un peptide scion a), b) ou c). 

3) Polypeptide dont la sequence d'acides amines est la sequence SEQ ID 
N° 6, scs . homologucs, variants ou formes modificcs ainsi que leurs fragments 
biologiqucmcnt actifs ct les polypeptides les contcnant. 

4) Acidc nucleiquc codant pour un polypeptide scion Tune des 
20 revendications 1 a 3. 

5) Acide nucleiquc choisi parmi les acides nuclciqucs suivants : 

a) acide nucleiquc de sequence SEQ ID N° 1 ; 

b) acide nucleiquc de sequence SEQ ID N° 2 ; 

c) acidc nucleique equivalent, homologuc, mute ou modifie, par rappon aux acides 
25 nucleiques selon a) ou b) ; 

d) fragment des sequences a), b) ou c) ayant au moins dix bases ; 

e) acide nucleique capable de s'hybrider avec Tune des sequences telles que definies 
cn a), b), c) ou d). 

6) Vcctcur de clonage ou depression dans unc cellule hole appropriee 
30 d'une sequence nucleotidique, caracterise en ce qu'il comportc unc sequence scion Pune 

des revendications 4 et 5. . 

7) Vecteur selon la rcvendication 6, caracterise en ce qu'il comportc les 
elements assurant P expression dc ladite sequence dans laditc cellule bote. 

8) Ceilute transformee par un vecteur selon Pune des revendications 6 et 7. 
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9) Cellule selon la rcvendication S, caractcrisce en ce qu'il s'agit d'une 
cellule procaryote. 

10) Cellule selon la rcvendication S, caracierisce en ce qu'il s'agit d'une 
cellule cucaryolc. 

5 1 1) Proccdc dc production d'un. polypeptide selon Tunc des rcvctidicauons 1 

a 3, caracterise cn ce qu'on cultivc unc cellule selon Tune des revendications 8 a 10 ct en 
ce que Ton rccupcrc Ic polypeptide produit. 

12) Polypeptide susceptible d'etre obienu par la mise cn ocuvre du precede 
. selon la rcvendication 11, 
10 13) Polypeptide selon Tune des revindications 1 a 3, caracterise en ce qu'i! 

est obtcnu par synthese chimique. 

14) Anticorps monoclonal ou polyclonal ou un de leurs fragments, aiuicorps 
chimeriques, caracterise en ce qu'il est capable de rcconnaitrc spccifiqucmcnt un 
polypeptide selon Tune des revendications 1 a 3, 12 ct 1 3 : 
15 1 5) Anticorps selon la rcvendication 14, caracterise cn ce qu'il est marque. 

16) Sonde ou amorce oligonuclcotidiquc, caractcrisce en cc qu'elle est 
constitute d'un acidc nucleiquc scion Tunc des revendications 4 ct 5. 

1 7) Sonde selon la rcvendication 16, caractcrisce cn cc qu'elle est marquee, 

18) Utilisation d'un polypeptide scion Tunc des revendications 1 a 3, 12 ct 
20 13 commc agent antimicrobien et/ou antiparasitairc. 

19) Utilisation d'un polypeptide selon Tunc des revendications 1 a 3, 12 ct 
13 comme agent cytotoxique, notammcnt a visec anticanccreusc. 

20) Utilisation d'un polypeptide selon Tune des revendications 1 a 3, 12 ct 
13 comme agent de modulation des processus de ['inflammation, de reparation tissulaire 

25 et de regulation endocrine, notamment corticostatique. 

21) Composition pour usage topique externc, caracterisee en ce qu'elle 
comporte au moins un polypeptide selon l'une des revendications 1 a 3, 12 et 13. 

22) Composition selon la revendication 21, caractcrisce en ce qu'il s'agit 
d'une composition cosmetique. 

30 23) Composition pharmaccutique comprcnant un polypeptide selon l'une des 

revendications 1 a. 3 et 12 et 13. 

24) Composition pharmaceutique comprenant un vectcur selon l'une d.cs 
revendications 6 et 7, capable d'exprimer in vivo un polypeptide selon l'une des 
revendications 1 a 3. 
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25) Composilion pharmaceutiquc selo'n Tune dcs rcvcndicatioiis 21, 23 ci 24, 
caracterisee cn cc qu'elle comprcnd un vchiculc pharmacculiqucmcnt acceptable. 

26) Composition pharmaceutiquc scion Tunc dcs rcvcndicatioiis 21, 23 a 25, 
destinec a la prevention ct/ou au traitcmcnt dcs infections microbienncs ou parasitaires. 

5 27) Composition pharmaceutiquc scion la revendication 26, caractcriscc en 

ce que ics infections microbienncs on parasitaires sont dcs infections cTorigines 
bacterienncs, de bacterics Gram-positives ou Gram-negatives, mycobacteriennes, 
fongiqucs, ou lices a des spirochetes. 

28) Composition pharmaceutiquc scion la revendication 26, caractcriscc en 
10 ce que les infections virales sont des infections liecs a des virus a enveloppc, notammcnt 

les virus HSV et HIV. 

29) Composition pharmaceutiquc scion Tune dcs revendications 21, 23 a 25, 
destinec a la prevention et/ou au traitcmcnt dc cancers, notammentles mclanomcs. 

30) Composition pharmaceutiquc scion la revendication 29, caractcriscc en 
1 5 cc que 1c cancer est Ic cancer du foie, de la prostate, du poumon non a pctitcs cellules ou 

le carcinomc colorectal. 

3 1) Composition pharmaceutiquc scion Tunc dcs revendications 21, 23 a 25, 
destinec a augmcntcr Ics defenses immunitaircs, a augmcntcr les defenses immunitaircs 
cn cas d'immunodcficicncc acquisc ou a prevenir rimmunodcficicnce, notammcnt pour 
20 le traitcmcnt du psoriasis. 

32) Composition pharmaceutiquc scion* Tunc dcs revendications 21, 23 a 25, 
destince a moduler les processus inflammatoires, notammcnt dans Ics cas dc maladies a 
inflammation chronique. 

33) Methode de diagnostic d'unc immunodeflcience et/ou d'unc 
25 predisposition a des affections de type cancer, caracterisee en ce qu'on met cn evidence 

dans un prelevemcnt de patient la presence d'une defensine anormale et/ou d'une 
sequence codant pour une defensine anormale. 

34) Methode de diagnostic d'infections dues a dcs microorganismes ou liecs 
a un deficit immunitaire ou a un phenomena inflammatoirc, caracterisee cn ce qu'elle 

30 comprend le dosage d'un polypeptide scion Tunc dcs revendications 1 a 3 ou d'un acide 
nucleique selon Tune des revendications 4 et 5 dans un echantillon biologique ct la 
comparaison du resultat dudit dosage obtcnu avec la quantite dudit polypeptide, 
respectivement dudit . acide nucleique, prcsente normalcmcnt dans un echantillon 
biologique equivalent. 



3NSDOCIO: <WO 99 1 1 663A1 _!_> 



WO 99/1 1663 PCT/FR98/01864 

3 5) Methode dc diagnostic d'inflammation, d'une immunodcficicncc ct/ou 
d'unc predisposition a des affections dc type cancer, caracterisec en cc qu'cllc comprend 
le dosage d'un polypeptide scion rune, des rcvcndicaiions I a 3 ou d'un acidc nucleique 
scion Tunc des rcvcndicaiions 4 et 5 dans tin echaniillon biologiquc et la comparison du 
5 rcsultat dudit dosage obtenu avec la quantite diidit polypeptide, rcspectivcmcnl dudil 
acidc nucleique, prescnte normalcmc.nt dans un cchantillon biologiquc equivalent. 

36) Methode de diagnostic scion Tune des rcvcndicaiions 33 a 35, 
caracterisec en ce qu'cllc met en cruvre un anticorps scion Tune des revendications 14 ct 
15. 

10 37) Methode de diagnostic . scion Tunc des revendications 33 a 35, 

* caracterisec en ce qu'cllc met en ocuvre unc sonde ct/ou une amorce oligonuclcotidique 
selon Tune des revendications 16 ct 17. 

3S) Kit ou nccessairc dc diagnostic pour la determination d'unc infection 
microbiennc ou parasitaire, d'unc inflammation, d'unc immunodcficicncc ct/ou dc 
15 predisposition a des affections dc type cancer, caracterise en cc qu'il comprend un 
anticorps selon Tunc des revendications 14 ct 15. 

39) Kit ou ncccssairc de diagnostic pour la determination d'unc infection 
microbiennc ou parasitaire, d'unc inflammation, d'unc immunodcficicncc ct/ou de 
predisposition a des affections de type cancer, caracterise en ce qu'il comprend unc 

20 sonde ct/ou une amorce scion Tunc des revendications 16 ct 17. 

40) Utilisation d'un polypeptide scion Tunc des revendications \ a 3 : 12 ct 
13, commc pesticide, notammcnt pour la culture dc vegctaux d'interet industriel. 
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ACACCATTTG TCTTCATGTA ACCCCATTAG CTATACCCTC TACTGCAAGG AAAC CAT AG G 
10 20 30 40 50 60 

CCCTAGGTCA CACCATGAGG CTGCNCTTAC AAGTTATGCA AAAACTATGG ACTTGGCAGA 
70 00 90 100 1 10 120-" 

CCTGTGCGTA AC AACAT CAC ACNCCAAATT TAACCAG.CTC TCCCCATAAC AGCACGCTCA . 
. 130 140 150 160. 170 100 

TGTGTTACT.G AGGAAATGCC TGTGGATTGG ACTGTGTTCT GTGTGCAGGA GGCTGGTCCA 
190 200 210 220 230 240 

GGTTTCACTT CTGCAGGACA CTGGACGTTT CCCAAAACCA GCAGACTTTC CCCACGTCCA 
250 260 270 280 290 300 

CACACACCCC TTCTCATTTT GCCTCTACAT CCATATCCAC TGGGCCCTTC AGGCACCTAC 
310 320 330 340 350 360 

TAATGCCCTA GAACCTAAAA CCATCATCTG GGGCCCAGTT CCCTGAATGG CCCTAATCTC 
370 360 390 . 400 410 4-20 

TTCCTCTGCT GGAATGAGTC CAGTGCCCAC TTCCTCCAAC GGTGAAATTG CTGGGCTGCT 
430 i 440 450 460 470 480 

ACAGATCAGG AACTCACTGC TTCCTCATAG GGGCAGCCGA CTTCACTGCT CTGCAACAGC 
490 500 510 520 530 540 

GACCACCCCT AGCGAGGCTT GAGATGCCTC TTGCCTCCTT AAGACTGAGG GAGACGCTTC 
550 560 570 560 590 600 

AGCTCTCACT CCACTGCCCC AAGTCCTCCA CAGCGCGGTG CCTGCTGCCT TCACACAGAG 
.610 620 630 640 650 660 

CTGCAGGGGN AGGTCCTGT-G TATCCGGCCT CCTGGACCAG CGCTGTGCAC AACCCTCCCA 
670 680 690 700 710 720 

TGGCAACAGT GGCTGCCCGG CCTGCACACT GGGCTTGGCA ACCTCGCTGT AGGTATTTAT 
730 740 750 760 770 780 

■ TCCCTCAGGA GTGACTGCAT TCTTTTCCCA TTTCCAGAAA ACTGATGCCA TTTACCTCAC 
790 800 810 -820 830 840 

T AT GAG GAG G AGGAGGAGGA GGAGGGTGGA GAGTGGTACA TTTTAAAATG TGCACTATTC 
850 860 870 880 890 900 

TCCCTAGGAC TCCCCCTCAA ATAACCCAGG AGGGACCATA . CCAGCTCATT CCTGTGTATC 
910 920 . 930 940 950 960 

CCAAGCATAN GAGTAATCAT CCCACTCATG CTGAGTGTAT GGTGGCCATT AAGCCTGCCC 
970 980 990 1000 1010 1020 
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TGAACTGGCT TTAGAACAAG GTGTTTCAGC ACACAGCACC GTCTTGCTGC CACCTTGGCC 
1030 1040 1050 1060 1070 1080 

CCCTCCCTTC TGAGACCTCT GAGACACATT NAGGTCTCAC CTAAAAATCT CAGGATTTCT 

1090 1100 1110 1120 1130 1110 

AGGCCCAAAN CGGTCCTAAA AAATTGTTCA GTCTGAACTC TCTAAGGTCA AGAGAAGAGG 

• 1150 1160 1170 110O H90 1200 

TGGTTGCTCC CTCTAAGAAA CCACATGTTG CATGTACATC CTTAATTCCC GAAAGTCCAA 
1210 1220 1230- 1240 1250 1260 

CAAACCTGCC CTGCTTAGCA ACACAAGCCG AGGTGGTACT CCTCTCACCC GGGCATTCTC 
1270 1280 1290 1300 1310 1320 

CAACACACCT GTTTGTCCAA ACAGCTTTGA TTTGTTTTTA TAGTTGGACC CCAGGTTCCC 
1330 ' 1340 1350 1360 1370 13.80 

AGGAGGCTGG TTCAGGCCAT ATTCCAAATC CTCATCTGTG TGTGAGTGGC ATTCTTAGCC 
1390 1400 1410 .' 1420 1430 144 0 

TAGCCTCCTT ACAGGGTGGA TACTATGATA CACAGCCAGG CTGTCCCAGT GGCTTTCAAT 
1450 1460 1470 1480 1490 1500 

ATTCTTTTGG TCCAGATAGT TCAGCCTCAG CACCAGTGTA GGCATCACAG GGTCAATTGT 
1510 1520 1530 1540 1550 1560 

CTTAGGAGTC ATGGAGAATT CATAGTTGGT AGCTACCTGG GCCTGGCCAG GGC7GACCAT 
1570 1580 1590 1600 1610 1620 

AGACAAGGCA TCCCTCTGTG AACTCCTATT TTAATGCCAG CTTCCCAACA AATTTCTCAA 

1630 1640 1650 1660 1670 1680 

CAAT box 

CTGCTCTTAC CAGCAGGTAT TTAAACTACT CAATAGAAAG TAACCCTGAA AATTAGGACA 

1690 1700 1710 1720 1730 1740 
TATA box 



CCTGTTCCCA AAAGACCCTT AAATAGGGGA AGTCCTTTCN CTGCTTGTGC ACAGCTGCTG " 
1750 1760 1770 1780 1790 1800 

j->mRNA 

ATGTGGCAAC ATGAGGCCTG GGACAGGGGA CTGTCCTCTG CCCACTCTGG TAGCCTCACG 
1810. 1820 1830 1840 1850 1860 

Spsite 

-- exon 1 >fitttf#tftf 

TAGCTTAACA ATCTGTCAGT AATACAATAC AAAACTTAAA CTTTCATACT GCGGTTCCAC 
1870 1880 1890 1900 1910 1920 

CCAGGAAGCT GTGTTCCCAA TCTGACCCGT GATTATGGGG CCACCTCAGA GGGNACCCAG 
1930 1940 1950 1960 1970. 1980 
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TGAGGGAATA 
1990 

TTAATAAACT 
2050 



TTTTGCCATC 
2000 

CAAGCACTTT 
2000 



TGGGACTGTT 
2010 

CCTTCCAAAC 
2070 



GGTTGCTGGG 
2020 

ACACATCTCC 
2000 



GGCAGTGGCT 
2030 

TACTTAACGT 
2 090 



ATGACCTCAG 
2010 

C f T C C A A C A G A 
2 1 0 0 



GAT GAT CAT A CTCATANGCT GCTAAAACAT TANTTTTATT TT GAG AAA AG TCTATTCATG 
2110 2120 2130 2140 2150 2160 

Alu insert 

TTCTTGGCCC ATGGAGTTTT CATTTNATTA NTTTATTTAT TTTGCAGAGA TGGAGTCTCA 
2170 2180 2190 2200 2210 2220 



CTATGTTGCT CAAGCTGGTC TCCAACTCCT GGGCTCAAGC GATCTTCCTA CTTTGGCCTT 
2230 2240 2250 2260 2270 2280 



TGAAAGCGCT GAGATTGCCT GTGTGAGCCA 
2290 . 2300 2310 

CAGATTAATT GTTTTTTGCT ATTGAANTTG 
2350 2360 2370 

CCATTCTAAC' ACGTAGGGTT TGCAAATATT 
2410 2420 2430 

CAGTTGATGG TTTCCTTTGC TGTGCAGGTG 
2470 2480 2490 

ATTTTCCATT TTATTGCCTG TCCCTTTGAT 
2530 2540 2550 

ATGTCAAAAA GCTTTATCCC TATATATTCT 
2590 2600 ; 2610 

TTAGGTCTTC AATCCATTGA GTTGATTTTT . 

2650 .2660 2670 

AT AC AT AT CT CAAAT.TCTAA ' GGTAGTATAT 
2710 2720 2730 

ACATTGAGCT GAAAATAATA AACATATTTT 
2770 2780 2790 

CTGAACTTGT TTCACCTATA GCCTGATGAG 
2830- 2840 2850 

GGAGACTGCT CATCCCCTAA CCTCAAAAAC 
2890 2900 . 291C 



TCATGGGGGC TCACTGGCCC ACTGATTAAT 
2320 2330 2340 . 

TTTGACTTCC TTGTATATTC GGATATTTAC 
2380 2390 2400 

TTCTCTCATG TTCTGTGTTG CCTTTTCACT 
2440 2.4 5 C 2460 

CTTTAGTGTT CAACGCAGCC CCGCTTGTCT 
2500 2510 2520 

GT CAT AG CCA AGAAATAATT GCCCAGATTA 
2560 2570 2580 

TCTAGTAGTT TATGGTTTCA GATCTTATGT 
2620 2630 2640 

GTATGTGGTA TAAGAAAAAA GACCACATGT 
2680 2690 2700 

ATTAGACACA TACAATGTGT CTATTTACAC 
2740 . 2750 2760 

TATCTTTCAA TCAACTCTAT CTCTATCTCA 
■2800 2810 2820 

GTTGCTGTCC TCTCTACCCC AGCTCCTATA 
2860 2870 2880 

CCCTTCATGA GGGTGATAAT GCCCTTGAAT 
2920 2930 2940 
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CCTCCAATGA ATTAGTTCTC TACTACAGTG GAATTCAGGT 
2950 2960 2970 2980 

TCTGAAGAGA AGAGCTCTCA TTTTCAGAAA ATAACCAGGA 
3010 3020 3030 3040 

AATTAAATCA CTCTTTCGAT TACTTTTTGC AATATTAAAA 
3070 3000 3090 3100 

AAACACAAAT AATGGTAGGG ' TCCTTATCAT CACCGTGAAT 
3130 3H0 • 3150 3160 

AAACCTAGAG ATTCACACTA GAATGAAAGC TGGGAGAGCA 
3190 3200 3210 3220 

GGAGGCCAAT GCACACCTGC AACCTCTCCA ACGAAATGCC 
3250 3260 3270 3200 

TCCATCTCTG AGCCTTCTCG CAGCAGAGCT ATAAATTCAG 
3310 3320 3330 3340 

Spa i ce 
«H«< 

ACATCCACTC CTGCTCTCCC TCCTCTCCTC " CACGTGACTA CAGTTATGAG GACCCTCACC 
3370 3380 3390' 3100 3410 • . 3420 

Exon 2 

CTCCTCTCTG CCTTTCTCCT GGTGGCCCTT CAGGCCTGGG CAGAGCCGCT CCAGGCAAGA 
3430 3440 . 3450 3460 ■ 3470 3480 



GCTCATGAGA TGCCAGCCCA GAAGCAGCCT CCAGCAGATG ACCAGGATGT GGTCATTTAC 
3490 .3500 3S10 3520. 3530 3540 

Spsite 

>HH|j ffn f | 

7TTTCAGGAG AtGACAGCTG CTCTCTTCAG GTTCCAGGTG AGAGATGCCA GCATGCAGAG 
3550 - 3560 3570 3580 3590 3600 

CTACAGACTA GACAGAAGGA CAGGAGACAG GCTCTGGAAT TGGATCTCAG TGGCAGATGT 
3610 3620 3630 3640 3650 3660 

CACTTAGGTG GCTATACTTA ACATCTCTGG TCCTGGATTT TCTCATATCT AAAT G G AATA 
3670 3680 369C 3700 3710 3720 

GAGAACCAAA GAAATCTAAG AGATTTTTCT TTCTCCAAAA ACTTGATTCC AAGATATGAC 
3730 3740 3750 3760 3770 3780 

•f GTGAAATTC ACTAGATTTA AGATATAAGG AGATGCTACC TAGTTCCTTC ' TGGAGCCAGA 
3790 3800 3810 3820 . 3830 3840 



CTGTTATGAG GCTCTGCATC 

2990 3000 

TTTATTCCCT GAAATTACTC 

3050 3060 

GTAAATATTT AAACAGGTAA 

3110 3120 

TCCAAGCTAG CATACACACT 

3170 31QC 

GAGGAGTCTC AGAAGGATGT 

3230 3240 

TACCTCCTCT CACTGCAGCA 

3290 3300 

CCTGGCTCCT CCGTTCCCAC 

3350 3360 



Figure 1 (suite) 
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CAAACAAGCT TAAGTATATA GG AAA AT ATT TCACCCTGTC TAT AT AG GAG GTTTTAGAAC 
3850 3860 3870 3890 3890. 3900 

CTGGAGAGGA GCCTAAGAAT GTGTTCAGGT CTCTGTGTGA. TGGGCAGGAA TGCAGAAAAG 
3910 3920 . 3930 3940 3950 3960 

TGAAGCAAAG GAGAATGAGT CTCGAATCCT GTGTGACCAG CACTGCTCTG TGTATTTATT 
3970 3980 3990 4000 4010 4020 

CCTATTGACT GAGATTGTTT GTGCTACCGG CTGTAATACA GCCAACATCA CTCATCAGCC 
4030 4040 4050 4060 4070 4000 

AACATGTGAC TTCTCCAAGA TTCCCTTTAC CACCCACTCC TGNACCCCGT ACTCAGTTTC 
4090 4100 4110 4120 4130 4140 

Spsite 

n ii ii < 

TGATGCTCTC TCTGGGTCCC CAGGCTCAAC AAAGGGCTTG ATCTGCCATT GCAGAGTACT 
4 150 4 160 4 170 4 180 4 190 42^50 

Exon 3 

ATACTGCATT TTTGGAGAAC ATCTTGGTGG GACCTGCTTC ATCCTTGGTG AACCCTACCC 
4210 . 4220 4230 4240 4250 4260 

CDS stop 

AATCTGCTGC TACTAAGCTT GCAGACTAGA GAAAAAGAGT TCATAATTTT CTTTGAGCAT 
4270 4280 4290 4300 4310 4320 

Poly Ad 

_ > 

TAAAGGGAAT TGTTATTCTt ATACCTTGTC CTCGATTTCC TGTCCTCATC CCAAATAAAT 
4330 . 4340 4350 4360 4370 4380 

ACTTGGTAAC ATGATTTCCG GGTTTTTTTT TTTTT 
4390 4400 4410 
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DEF4 
DEFX 



10 20 30 40 50 

GGATCCCCATTTGTCTTCAGTGTAACCC-ATTAGTTAAACCGCCTACTGCAAGGAAACCA 



ACACCATTTGTCTTCA-TGTAACCCCATTAGCTATACCCTCTAGTGCAAGGAAACCA 
10 20 30 40 50 



60 70 00 90 100 110 

DEF4 ' CAAGGCTTGGATCAGATCATGAGGCTGCCCT-ACAAGTTATGCCAAAAAATATGGACTTG 
i : : : : : : : : : i ::::: J : : : : : : :::::::::: 

DEFX T AGGGC CT AGGT C ACAC CAT GAGGCT GC N CTT ACAAGTT ATCC - AAAAACT AT GG ACTTC 
60. 70 80 90 100 110 



DEEM 
DEFX 



120 130 140 150 160 170 

GAAGACCTGTCTGTTATAATATCACAC-CCAAATCTAACCAGCTCTGCCAATAACAGCTC 



GGAGACCTGTGCGTAACAACATCACACNCCAAATTTAACCAGCTCTCCCCATAACAGCAC 
120 130 140 ISO 160 170 



180 190 200 210 220 230 

DEF4 TCTCCTATGTTACTAGGAAAATGCCTATGGATTGGAGTGTGTTCTGTGTGCAGGAGGCTG 

DEFX GCTCATGTGTTACTGAGGAAATGCCTGTGGATTGGAGTGTGTTCTGTGTGCAGGAGGCTG 
180 190 200 210 220 230 



DEF4 
DEFX 



240 250 260 270 280 290 

GTCCAGGTTTCACTTCTGCAGGACACTGGACATC- CCCACAACCACCAGACCTTCCCCAC 



GTCCAGGTTTCACTTCTGCAGGACACTGGACGTTTCCCAAAACCAGCAGACTTTCCCCAC 
240 250 260 270 280 290 



300 310 320 330 340 350 

DEF4 GT G C AC AC AC AC C C CTT CT C ATTTT G C CT CT ACAT C CAT AT CC ACT G G G C C CTT CAG G C A 

DEFX GTGCACACACACCCCTTCTCATTTTGCCTCTACATCCATATCCACTGGGCCCTTCAGGCA 
300 310 32C 330 340 350 

360 . 370 380 390 ' 400 410 

DEF4 CCTACTAATGCCCTAGAACCTAAAACCATCATCTGGGGCCCAGTTCCCCAAATAGCCCTA 

DEFX CCTACTAATGCCCTAGAACCTAAAACCATCATCTGGGGCCCAGTTCCCTGAATGGCCCTA 
360 370 380 390 400 410 

420 430 440 450 460 470 

■ DEF4 ATTTCTTCCTCTGCTGGAATGAGTCCAGTGCCCACTTCCTCCAAAGGTGAAATTGCTGGG 

DEFX ATCTCTTCCTCTGCTGGAATGAGTCCAGTGCCCACTTCCTCCAACGGTGAAATTGCTGGG 
420 430 440 450 460 470 

480 490 500 , 510 520 530 

DEF4 CCT GCAACAGATCAGGAACT CACTGCTTC-TC AT AGGGGCAGCCG ACTTC ACT GCTCTGG 

DEFX C-TGCTACAGATCAGGAACTCACTGCTTCCTCATAGGGGCAGCCGACTTCACTGCTCTGC 
480 490 500 510 520 530 



Figure 2 
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540 550 560 570 5Q0 590 

DEF4 AACAGCGACCACCCCTAGCGAGGCTTGAGATGCCTCTTCCCTCCTTAAGACTGAGAGCGC 

DEFX ' AAC AG C G AC C AC C C CT AG C GAG G CT T G AC AT G C CT CT T GC CT C CT- V AA G ACT G AGO G AC A 
540 550 500 570 500 590 

GOO 610 620 (530 

DEF-1 CGCT GCCCCCAGTCCTCCATAGCCCAGTGCCTGCCTGCCTTCA 

DEFX CGCTTCAGCTCTCACT-CCACTGCCCCAAGTCCTCCACAGCGCGGTGCCTG-CTGCCTTCA- 
600 610 620 630 640 650 

640 650 660 670 630 690 

DEF4 GCCAGAGCTGCAGGGG-AGGCCCTGAGCACCCAAGTCCTGCTGGACCAGCGCTGTGCACG 

DEFX CACAGAGCTGCAGGGGNAGGTCCTGTGTATCC- -GGCCTGCTGGACCAGCGCTGTGCACA 
660 670 680 690 700 710 

700 710 720 730 740 750 

DEF4 GCCCTCCCATGGCGGCAGGGGCTGCCTGGACTGCATACTGGGTTCAGCAACCTCACTATA 



DEFX ACCCTCCCATGGCAACAGTGGCTGCCCGGCCTGCACACTGGGCTTGGCAACCTCGCTGTA 
720 730 740 750 760 770 

760 770 780 790 ■ 800 810 

DEFs GGTATTCATTCCCTCAGGAACAACTGCATTCTTTTCTCATTTCCAGAAACCTCATCCCGT 



DEFX GGTATTTATTCCCTCAGGAGTGACTG.CATTCTTTTCCCATTTCCAGAAAACTGATGCCAT 
780 790 800 8 10 820 830 

820 830 840 e50 8 60 

DEF4 TTACCTCACTACAAGGAGGAGGATG GTGGAGAGTGGTACATTTTAAAATGT 



DEFX TTACCTCACTATGAGGAGGAGGAGGAGGAGGAGGGTGGAGAGTGGTACATTTTAAAATGT 
840 850 860 870 880 890 

870 880 890 900 910 920 

DEF4 GCACTAGTCTCCCTGGGACTCCCCTTCAAATAACCCAGGAGGGACCACACAAGGGAAAGC 
...... ••••*••••••■>••••«•••• #« • • 

....«.* •••••••■•••«■••■«••••• •• • ■ 

DEFX GCACTATTCTCCCTAGGACTCCCCCTCAAATAACCCAGGAGGGACCATACCAGCTCATTC 
900 910 920 930 940 950 

930 940 950 960 970 960 

DEF4 TTATGCATCCCCCCCACCC-AGTGACCATCTTCCTAACTCTGGGTGTAGGGAGACTCGTA 

DEFX CTGTGTATCCCAAGCATAUGAGTAATCATCCCACTCATGCTGAGTGTATGGTGGCCATTA 
960 970 980 990 10O0 1010 

990 1000 1010 1020 1030 1040 

DEF4 AGCCTACG--GGATTGGTTTGGGAACAGGGTATTTGAGCTCACAACACAAGGTGATGCAA 



DEFX AGCCTGCCCTGAACTGGCTTTAGAACAAGGTGTTTGAGCACACAGCACCG- 
1020 1030 1040 1050 1060 



Figure 2 (suite) 
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1050 10'60 1070 1080 1090 1 100 

DEF4 GCTAACACCAATCTCGCTGCAGCTTTGGCCACCATCCTAACG-GACTTCTCACAGACATT 

DEFX TCTTGCTGCCACCTTCGCCCCCTCCCTTGTGAGACCTCTGAGACACATT 

1070 . 10 0 0 1090 1100 1110 

. 1110 1120 1130 1140 1150 11G0 

DEF-1 -AGCTCTCACGCAATCATTTGATGAGTCCTTGCCCrGGAT - -GACCTAGACACTCATTTA 

D £ FX NAGGTCTCACCTAAAAATCTCAGGATTTCTAGGCCCAAANCGG^XCI'AAAAAA'r'rGl'TCA 
1120 - 1130 1140 1130 . 11C0 1170 

1170 1180 1190 1200 1210 1220 

DEF4 GGCTTGAACTATCTAAGGCCAAGCAAAAAGGTGACTGTCCCCTCTAGGAA-CCACATGCT 



D E FX CTCT-GAACTCTCTAAGCTCAAGAGAAGAGGTGGTTGCTCCCTCTAAGAAACCACATGTT 
1100 1190- 1200 1210 1220 

1230 1240 1250 1260 1270 

DEF4 ATATGCACATCCTTTACTCGGGAGCCTGCAAC CTGCCCTATCCAGCAACACAAGCC 



DEFX GCATGTACATCCTTAATTCCGGAAAGTCCA-ACAAACCTGCCCTGCTTAGCAACACAAGCC 
1230 1240 1250 1260 1270 1280 

1280 1290 ■ 1300 1310 1320 1330 

DEF4 CAGGCG-TATTCAGTCTCATCCAGGTATTCTCCAAC CTTACTTGTCTGAATGGCTTG 



DEFX GAGGTGGTACTCC-TCTCACCCGGGCATTCTCCAACACACCTGTTTGTCCAAACAGCTTT 
1290 1300 1310 1320 1330 .1340 

1340 1350 1360 1370 13G0 1390 

DEF4 gatttgtttttatggttagaccccaggg-cctgggaggtcagttcagaccacattccaaa 



defx gatttgtttttatagttggaccccaggttcccaggaggctggttcaggccatattccaaa. 

1-350 1360 1370 1380 1390 1400 

1400 1410 1420 1430 1440 1450 

DEF4 tcctcatctgtgtgtgggtggcattttgatcctagtctcctcgcaaggtgtatacaacaa 
defx tcctcatctgtgtgtgagtggcattcttag.cctagcctccttacagggtggatactatga 

1410 1420 1430 1440 .1450 - 1460 

1460 1470 1480 1490 1500 1510 

DEF4 tatgcaggccaggctctcctggtggctttaaatattccctcggtccaggtagttcagcct 
defx tacacag-ccaggctgtcccagtggctttcaatattcttttggtccagatagttcagcct 

1470 1480 1490 1500 1S10 152C 

1520 1530 1540 1550 1560 1570 

DEF4 cagccaccagcataggtatcatggggtcaattgtcttaggagtcatgaggaatccacagt 
defx cagc-accagtgtaggcatcacagggtcaattgtcttaggagtcatggagaattcatagt 

1530 1540 1550 1.560 1570 1580 
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1S80 1S90 1600 1610 1620 1630 

DEF4 TGATTGCTGCCTGGGCCTGGCCAGGGCTGACCAAAGTAGACGAGGGGTCCGTACCTCCCT 



DEFX TGGTAGCTACCTGGGCCTGGCCAGGGCTGACCA TACACAAGGCATC CCTCTGT 

1590 1600 1610 1620 1630 

1640 1650 1660 1670 . 1600 1690 

DEF1 GGACTCCTGCTTGAACTCCAGCTTTCTGCCAAATTTCTCAAC'rGCCCTTCTTAACAGTTA 



DEFX GAACTCCTATTTTAATGCCAGCTTCCCAACAAATTTCTCAACTGCTCTTACCAGCAGGTA 
1640 . 1650 1660 1670 1680 1690 

CAAT box 

1700 ----1710 1720 1730 1740 1750 

DEF4 TTTAAAGTACCCAATAGAAAGTAACGCTGAAAAATTAGGACACCTGATACCAAAAGACCC 

DEFX TTTAAACT ACT CAAT AGAAAGTAACCCTGAAAA-TTAGGACACCTGTTCCCAAAAGACCC 
1700 1710 1720 1730 1740 1750 

TATA box 

1770 1780 1790 1800 

DEF4 TTAAATAAGG-AAGTCCTCTC-CTCTGTGTGCATGGCTGCTCTTG CTACATAAGACC 



DEFX TT'AAATAGGGGAAGTCCTTTCNCTGCTTGTGCACAGCTGCTGATGTCGCAACATGAGGCC 
1760 1770 1780 1790 1800 1810 

mRNA start --> SpSiue 

1810 1820 I 1830 1840 1850 1860 

DEF4 TGGAACACAGGACTGCTGTCTGCCCTCTCTGCTCGCCCTGCCTAGCTTGAGGATCTGTAA 

DEFX TGGGACAGGGGACTGTCCTCTGCCCACTCTGGTAGCCTCACGTAGCTTAACAATCTGTCA 
1820 1830 1840 1850 1860 1870 

1880 1890 1900 1910 1920 

DEF4 GTAACACAA-- AACTTAAACTTTCACATTGAGGTTTCAATATTGAAGCTGTGTCCCC 



. DEFX GTAATACAATACAAAACTTAAACTTTCATACTGCGGTTCCACCCAGGAAGCTGTGTTCCC 
1880 1890 1900 1910 1920 1930 

1930 1940 1950 1960 1970 1980 

DEF4 AGTCTGACCTCTCACTGTGGGGCCACCCCAGAGGACCCAGCGTGAAGCCCCTGCTGTGAA 

DEFX AATCTGACCCGTGATTATGGGGCCACCTCAGA'GGGNACCCAGTGAGGGAA-TATTTTG- - 
1940 1950 I960 1970 1980 1990 

1990 2000 2010 2020 2030 2040 

DEF4 CTTCTATCTGGGTGTCTGGCGGCTGCTGGGGGTAATGGCTACTAGCTAAGTCAATAGAGA 



DEFX CCATCTGGGA- - CTGTTGGTTGCTGGGGGCAGTGGCTATGAGCTCAGTTAATA 

2000 2010 2020 2030 2040 
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2050 2060 2070 . 2000 2090 2100 

DEF4 AACT C AAAAAGTTT C CTT CC AAACAC AC CT GT C CT ACTTG AC AT GT C C AAT AAAG AC GAT 

DEFX AACTCAAGCAGTTTCCTTCCAAACACACATGTCCTACTTAACCTCTCCAACACACATC.AT 
2050 2060 2070 . 2O0C 2090 2100 

2110 2120 2130 2140 
DEF4 CA CACCTTCT--TAAAACATTA-TTTTATTGTCAGAGAAGCCTCT 

DEFX CATACTCATA^JGCTGCTAAAACATTANTTTTATTTTGAGAAAAGTCTATTCATGTTCT'^G 
2110 2120 2130 2140 2150 2160 

2150 

DEF4 GCAG GTC CTA 

DEFX GCCCATGGAGTTTTCATTTNATTANTTTATTTATTTTGCAGAGATGGAGTCTCACTATGT 
2170 2180 . 2190 2200 2210 . 2220 . 

2160 - 
DEF4 GGTCT GTTTTTC ' 

DEFX TGCTCAAGCTGGTCTCCAACTCCTGGGCTCAAGCGATCTTCCTACTTTGCCCTTTGAAAG 
2230 2240 " 2250 2260 2270 2280 

2170 

DEF4 ' AATCAGGTT 

DEFX CGCTGAGATTGCCTGTGTGAGCCATCATGGGGGCTCACTGGCCCACTGATTAATCAGATT 
2290 2300 2310 2320 2330 2340 

2180 2190 2200 2210 2220 2230 

DEF4 GTTTGTTTTTTGCTATTGA-GTTGTTTGACTTCCTTATGTATTCAGATATTTACCCCTTC 

DEFX AATTGTTTTTTGCTATTGAANTTGTTTGACTTCCTTGTATATTCGGATATTTACCCATTC 
2350 2360 2370 2380- 2390 2400 

2240 2250 2260 . 2270 2280 2290 

DEF4 TACCACGTAGGCTTTGCAAACATTTTCTCTCATTTTCTGGGTTGCCGTTTCCCTCAGTTG 

DEFX TAACACGTAGGGTTTGCAAATATTTTCTCTCATGTTCTGTGTTGCCTTTTCACTCAGTTG 
2410 2420 2430 2440 2450 2460 

2300 2310 2320 2330 2340 2350 

DEF4 ATTGTTTCCTTTGCTATGAAGATGCTTTAGCGTTCAATGCAGCCCCGCTTGTCTATTTTC 

DEFX ATGGTTTCCTTTGCTGTGCAGGTGCTTTAGTGTTCAACGCAGCCCCGCTTGTCTATTTTC 
2470 .2480 2490 2500 2510 2520 

2360 2 37 0 2380 2390 2400 2410 

DEF4 CCATTTGTTTATTGCCTGTGCCTTTGGTGTCATAGCCAAGAAATCATTACTCACGTCAAT 

DEFX C-ATTT TATTGCCTGTCCCTTTGATGTCATAGCCAAGAAATAATTGCCCAGATTAAT 

2530 2540 2550 2560 2570 2580 
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2420 2430 2440 2450 24GQ 24*70 

DEF4 GTCCAAA-GCTTTATCTTTGTATGTGCTTCTCGTAGTTGTATGCTTTCAGGTCTTTTCAA 



DEFX GTCAAAAAGCTTTATCCCTATATATTCTTCTAC/rACTT-TATGC'l'TTCAGATCTT-- 

2590 2600 2G10 2G20 2630 

2460 2490 2500 2510 2520 2530 

DEF4 GTCTATGTTGAG-TCTTCAATCCATGT'rGAGCTGATTTTT-'rACATGTTGTGAGAGAAAG 



DEFX ATGTTTAGGTCTTCAATCCA- -TTGAGTTGATTTTTGTATGTGCTATAACAAAAAA 

2640 2650 2060 2670 2660 - 2690 

2 54 0 

DEF4 GAC CACGTG TAT GC AC CT - - ■ . 



DEFX GACCACATGTATACATATCTCAAATTCTAAGGTAGTATATATTAGACACATACAATGTGT 
2700 2710 2720 2730 . 2740 2750 

2 550 2560 2 570 

DEF4 -AGC AACTCATGAAC CTTACA- - CAACTCTTT 



DEFX CTATTTACACACATTGAGCTGAAAATAATAAACATATTTTTATCTTTCAATCAACTCTAT 
2760 27.70 2780 2790 2000 .2810 

2560 2590 2600 2610 2620 2630 

DEF4 ATCTCTCTCACTGAGCTCATTTCACCTGTACCCTGATAAGGTCATTCTCCTCTTCACTCT 

DEFX CTCTATCTCACTGAACTTGTTTCACCTATAGCCTGATGAGGTTGCTGTCCTCTCTACCCC 
2820 2830 2840 2850 2060 2870 

2640 2650 2 660 2 67 0 2630 2690 

DEF4 . GGCCCCTACAGGAGACTACTCACCCCATTACCTCAGTCGCCCCTTCATGAGGGT- ATAAT 



DEFX AG C T C CT AT AG G AG AC T G CT CAT C C C CT AAC C T C AAAAAC C C C T T C AT G AG GG T GAT AAT 
2880 2890 2900 2910 2920 2930 

2700 2710 . 2720 2730 2740 2750 

DEF4 GACCTAGAAGCCTGCAATGAGTTACT-CTCTACTCCACCGGAATTCAGGTCTGGCACCAG 

DEFX GCCCTTGAATCCTGCAATGAATTAGTTCTCTACTACAGTGGAATTCAGGTCTGTTATGAG 
2940 2950 2960 2970 2980 2990 

2760 2770 2780 2790 2800 . 2810 

DEF4 TGTTTAGACCT-- GAAGAGAATAGTAGGGCCCATTATCAGGAAATAAGAGGCATTTGCTC 

DEFX GGTCTGGATCTCTGAAGAGAAGAG CTCTCATTTTCAGAAAATAAGCAGGATTTATTC 

3000 3010 3020 3030 3040 

2820 2830 2840 2850 2860 2870 

DEF4 TCTTAAATTATTGAATGAAAGCACTGTTTCCATT- CTTTTTAGAATATTAAAGATTTAAC 



DEFX CCTGAAATTACTGAATTAAATCACTGTTTCGATTACTTT7TGCAATATTAAA- 
3050 3060 . 3070 3080 3090 
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2300 2090 2900 2910 2920 293C 

DEF4 CAGGA.V\TATTAGGTATTTCCTGAAAACAGGAAAAAATGCCACGGTCCTCA'rCATO\CCA 



DEFX - ACT AAAT ATTT A - - AAC AGGT AAAAACAG - AAAT AATCGT AGGGTCCTT AT CATCACCG 
3100 3110 3120 3130 3110 3150 

2940 2950 2960 2970 2900 
DEF4 TCAACTTCAACCTAGGCACAGACACTAAACATACAGCTTC CTGTGAAGAAAGCTGGC 

DEE- a TGAA'rTCCAAGCTAG-CATACACACTAAACCTAGAGATTCACACTACAATGAAAGCTGGC 
. 31G0 3170 3100 .. 3190 3200 3210 

. 2990 3000 . 3010 3020 3030 . 3040 

DEF4 AGAGCAGAGGAGGCATTCCAGGGATGTCAAGGCCAATAGGAGTCGGCATCCTCTCTAACA 



DEFX AGAGCAGAGGAGTC-TCAGAAGGATGTGGAGGGCAATGGACACCTGCAACCTCTCCAACG 
3220 3230 3240 3250 3260 3270 

3050 3060 3070 3000 3090 3100 

DEF4 AAATGCACACCTCCTCTCACTCAGAAGGCCAAAGGTTTCTTATCTCTGTGCCTTCTCCCA 

DEFX AAAT GCCTACCTCCTCTC ACT GC AGCATCC- - ATCTCTGAGCCTTCTCGCA 

3280 3290 3300 3310 3320 

3110 3120 3130 3140 3150 3160 

DEF4 GAA-AGCTATAAATCCAAGCTGGCTTCTCCCTCCC -ACACACCTGCTCCTGCTCTCCCTC 



DEFX GCAGAGCTAT'AAATTCAGCCTGGCTCCTCCGTTCCCACACATCCACTCCTGCTCTCCCTC 
3330 3340 3350 3360 3370 3380 

< exon2 

3170 3180 3190 3200 3210 3220 

DEF4 CTC- CAGGTCACCCCAGCCATGAGGATTATCGCCCTCCTCGCTGCTATTCTC7TGG 



DEFX CTCTCCTCCAGGTGACTACAGTTATGAGGACCCTCACCCTCCTCTCTGCCTTTCTCCTGG 
3390 3400 3410 3420 3430 3440 



3230 3240 3250 3260 3270 3280 

DEF4 TAGCCCTCCAGGTCCGGGCAGGCCCACTCCAGGCAAGAGGTGATGAGGCTCCAGGCCAGG 

DEFX TGGCCCTTCAGGCCTGGGCAGAGCCGCTCCAGGCAAGAGCTCATGAGATGCCAGCCCAGA 
3450 3460 3470 3480 3490 3500 



3290 3.300 3310 3320 3330 . 3340 

DEF4 . AGCAGCGTGGGCCAGAAGACCAGGACATATCTATTTCCTTTGCATGGGATAAAAGCTCTG 

. DEFX AGCAGCCTCCAGCAGATGACCAGGATGTGGTCATTTACTTTTCAGGAGATGACAGCTGCT 
3510 352C 3530 3540 3550 3560 
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DEF4 
DEFX 



> 

3350 3360 3370 33G0 3390 3400 

CTCTTCAGCTTTCAGCTGAGAGAGCCCAGCATAAAAAAGCTACCGAGTCTACAGAGACGG 



CTCTTCACGTTCCAGGTGAGAGATGCCAGCATGCAG A- CCTAC - - AGACTACACAGAAGG 
3570 3500 3590 3G00 3610 



DEF4 
DEFX 



3-110 3420 3430 3440 3450 3460 

ATGGGAGATGGGCTCTGGAATCACATCTCAATGGTGGATGTCACT'rAGGTGGCTTTACrr 



ACAGGAGACAGGCTCTGGAATTGGATCTCAGTGGCAGATGTCACTTAGGTGGCTATACTT 
3620 3630 3640 . 3650 3660 3670 



3470 3480 3490 3500 3510 3520 

DEF4 . ACCATCTCTGGGCCTCGATTTTCTTATCTCGAAACTGAATAGAGAGACAAACAAATGTAA 



DEFX AACATCTCTGGTGCTGGATTTTCTCATATCTAAATQGAATAGAGAACCAAAGAAATCTAA 
• 3680 3690 3700 - .3710 3720- 3730 

3530 3540 3550 3560 3570 3580 

DEF4 GT-AGTCTTCTTTCTCCAAAGACTTGATTCCAAGGTATGTCTATAAAATTCGCTAGGGTT 

DEFX GAGATTTTTCTTTCTCCAAAAACTTGATTCCAAGATATGACTGTGAAATTCACTAGATTT 
3740 3750 3760 3770 3780 3790 



DEF4 
DEFX 



3590 3600 3610 3620 3630 

AAGATATGGAGAGACAGATTGACCAGTTCTTTCTGGATCTAAACAAGTA-GAT--ATTAT 



AAGATATAAGGAGATG--CTACCTAGTTCCTTCTGGAGCCAGACAAACAAGCT7AAGTAT 
3800 3810 3820 3830 3840 3850 



3640 3650 3660 3670 3680 3690 

DEF4 AG-GGAAAATATTTCATTCTGCCAACAAAGGAAATTTTAAAAACTGGAGATGGGCTTAAG 

DEFX ATAGGAAAATATTTCACCCTGTCTATATAGGAGGTTTTAGAACCTGGAGAGGAGCCTAAG 
3860. 3870 3880 3890 3900 3910 



3700 



3710 



3720 



3730 



3740 



3750 



DEF4 AGTATGTTCAGGTGTGTGTCTGATGGGGCA--AAAGCACACAAATCAGAGCAAAAGAGAA 

DEFX AATGTGTTCAGGTGTGTGTGTGATGGG-CAGGAATGCAGAAAAGTGA-AGCAAAGGAGAA 
3920 3930 3940 3950 3960 3970 

3760 3770 3780 3790 3800 3810 

DEF4 TGAGTCTCAAATCCTGTATGAGCAGCATTGCTCTGTGTATTTATTCCTATTGACTAAGGT 

DEFX TGAGTCTCGAATCCTGTGTGACCAGCACTGCTCTGTGTATTTATTCCTATTGACTGAGAT 
3980 3990 4000 4010 4020 4030 



3820 
DEF4 

DEFX 



3830 3840 3850 3860 3870 

TGTTTGTGCTACCGGCACTAATGCAGCCAGCATCACCGGTCAGCCAGCATGTGCATTCTC 



TGTTTGTGCTACCGGCTGTAATACAGCCAACATCACTCATCAGCCAACATGTGACTTCTC 
4040 4050 4060 4070 4080 4090- 
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3880 3890 3900 3910 3920 3930 

DEF4 CAAGATTCCCTTTACCACCCACCGCTGACCTTGGTCCTTAATTTCTCAGTCTTCCTCTGT 



DEFX CAAGATTCCCTTTACCACCCACTGCTGNACCCCGTACTCACTTTCTGATGCTCTCTCTGG 
4100 4110 4120 4 130 4 140 4 1130 

< ex on 3 

3940 3950 3960 3970 ■ 39Q0 3990 

DEF4 GTTCCC/xGGCTCAACAAGGGGCATGGTCTGCTCTTGCACATTAGTATTCTGCCGGCGAAC 



DEFX GTCCCCAGGCTCAACAAAGGGCTTGATCTGCCATTCCAGAGTACTATACTGCATTTTTGG 
4160 4170 4180 4190 4200 4210 

exon3 

4000 4010 4020 4030 4040 4050 . 

DEF^i AGAACTTCGTGTTGGGAACTGCCTCATTGGTGGTGTGAGTTTCACATACTGCTGCACGCG" 



DEFX AGAACATCTTGGTGGGACCTGCTTCATCCTTGGTGAACGCTACCCAATCTGCTGCT 

4220 4230 4240 4250 4260 4270 _ 

ex on 3 -. 

4060 4070 4080 4090 4100 ' 4110 

DEFh TGTCGATTAACATTCTGCTGTCCAAGAGAATGTCATGCTGGGAACGCCATCATCGGTGGT 

DEFX ACTAA 

exon3 

4120 4130 '4140 4150 4160. 4170 

DEF4 GTTAGCTTCACATGCTTCTGCAGCTGAGCTTGCAGAATAGAGAAAAATGAGCTCATAATT 



DEFX GCTTGCAGACTAGAGAAAAA" GAGTTCATAATT 

4280 4290 4300 

exon3 1 : 

4180 4190 4200 4210 4220 4230 

DEF4 TGCTTTGAGAGCTACAGGAAATGGTTGTTTCTCCTATACTTTGTCCTTAACATCTT-TCT 



DEFX TTCTTTGAGCATTAAAGGGAATTGTTATT CTTATACCTTGTCCTCGATTTCCTGTCC 

4310 4320 4330 4340 4350 4360 

Poly Ad 
> 

4240 4250 42 60 4270 4280 4290 

DEF4 TGATCCTAAATATATATCTCGTAACAAGATGTCTTTGTTTACACCTCTTTGAAATTTGAT" 



DEFX TCATCCCAAATAAATACTTGGTAACATGATTTCCGGGTTTTTTTTTTTTT 
4370 ' 4380 4390 4400 4410 
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10 2 0 3 0 4 0 50 GO 

DEF4 GTCTGCCCTCTCTCCTCGCCCTGCCTAGCTTGAGGATCTGTCACCCCAGCCATGAGGATT 



DEFX 



DEFX CTCTCCCCACTCTGGTAGCCTCACGTAGCTTAACAATCTGTCA'CTACAGTTATGAGGACC 
10 20-30 40 50 60 

7 0 8 0 90' 100 110 120 

DEF«1 ATCGCCCTCCTCGCTGCTATTCTCTTGGTAGCCCTCCAGGTCCCGGCAGCCCCACTCCAc; 



DEFX CTCACCCTCCTCTCTGCCTTTCTCCTGGT GGCCCTTCAGGCCTGGCCAGAGCCGCTCCAC 
70 60 90 100 110 120 

130 • 140 150 160 170 180 

DEF-1 GCAAGAGGTGATGAGGCTCCAGGCCAGGAGCAGCGTGGGCCAGAAGACCAGGACATATCT 



DEFX GCAACACCTCATGAGATGCCAGCCCAGAAGCACCCTCCAGCAGATGACCAGGATGTGGTC 
130 140 . 150 160 - 170 - 100 

190 200 210 220 230 240 

DEF4 ATT7CCTTTGCATGGGATAAAAGCTCTGCTCTTCAGGTTTCAGGCTCAACAAGGGGCATG 



DEFX ATTTACTTTTCAGGAGATGACAGCTGCTCTCTTCAGGTTCCAGGCTCAACAAAGGGCTTG 
190 200 210 220 230 240 

250 260 270 280 • 290 300 

DEF4 GTCTGCTCTTGCAGATTAGTATTCTGCCGGCGAACAGAACTTCGTGTTGGGAACTGCCTC 



DEFX ATCTGCCATTGCAGAG.TACTATACTGCATTTTTGGAGAACATCTTGGTGGGACCTGCTTC 
250 260 270 280 290 300 

310~ 320 330 340 350 360 

DEF4 ATTGGTGGTGTGAGTTTCACATACTGCTGCACGCGTGTCGATTAACGTTCTGCTGTCCAA 



DEFX ATCCTTGGTGAACGCTACCCAATCTGCTG CTACTAA 

310 320 330 340 350 

370 380 390 400 4 10 420 

DEF4 GAGAATGTCATGCTGGGAACGCCATCATCGGTGGTGTTAGCTTGACATGCTTCTGCAGCT 



360 370 380 390 



430 440 450 460 470 480 

DEF4 GAGCTTGCAGAATAGAGAAAAATGAGCTCATAATTTGCTTTGAGAGCTACAGGAAATGGT 



DEFX — GCTTGCAGACTAGAGAAAAA-GAGTTCATAATTTTCTTTGAGCATTAAAGGGAAT 

400 4 10 420 430 440 450 

490 500 510 520 530 

DEF4 TGTTTCTCCTATACTTTGTCCTTAACATCTT-TCTTGATCCTAAATATATATCTCGTAAC 

DEFX TGTTATTCTTATACCTTGTCCTCGATTTCCTGTCCTCATCCCAAA7AAATACTTGGTAAC 
460 470 . 480 490 500 510 

540 
DEF 4 AAG 

DEFX . ATG 
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< Signal peptide ><-- 

5 10 15 20 

MeuArgThrLeuTh r LeuLcuSerAla Fhc I.euLeuVa lAlaLeu Gl nAlaT rpAlaGl u 



Propiccc. . 

25 30 35 AO 

ProLeuGlnAlaArg AlciHiaGluMetPro Al^ClnLysClnPro ProAlaAnp.AspGl n 



Propiece 

45 50 55 ' 60 

Asp ValVal I leTy r PheSerGl yAspAsp Se rCys Se r LeuGln Val ProGl ySe rTh r 



• >< Mature peptide 

65 70 75 "80 

LysGlyLeuIleCys Hi sCysArgVal Leu TyrCys I lePheGly GluHi s LeuGl yGl y 



■ Mature peptide > 

85 90 94 

ThrCysPhelleLeu GlyGluArgTy r P ro IleCysCysTyr 



Figure 4 



DEF4_HUMAN 
DEFS_HUMAN 
t>EF6_HUMAN 
DEF1_HUMAN 
DEFX 



SIGNAL 
MRI IALLAAI LLVALQVRA 
MRT I AI LAAI LLVALQAQA 
MRTLTI LTAVL LVALQAKA 
MRT LAI LAAI LLVALQAQA 
MRTLT LLS AFLLVALQAWA 



PROPIECE 

GPLQAR GDE1APGQ- EQRGPEDQDI SI S FAWDKSS 

ESLQER ADEATTQ- KQSGEDNQDLAI S FAGNGLS 

EPLQAEDDPLQAKAYEADAQ- EQRGANDQDFAVS FAEDASS 

EPLQAR ADEVAAAPEQIAADI PEWVSLAWDESL 

EPLQAR AHEMPAQ-KQPPADDQDWI YFSGDDSC 



DEF4_HUMAN 
DEF5_HUMAN 
DEF6_HUMAN 
DEF1_HUMAN 
DEFX 



PROPIECE 
ALQVSGSTRGM 
ALRTSGSQARA 
SLRALGSTRAF 
APKHPGSRKNM 
SLQVPGSTKGL 



Mature PEPTIDE 

VCSCRLVFCRRTELRVGNCLIGGVSFTYCCTRVD 

TCYCRTGRCATRESL3GVCEI SGRLYRLCCR 

TCHCRR-SCYSTEYSYGTCTVMGINHRFCCL 

ACYCRI PACI AGERRYGTCI YQGRLVJAFCC 

ICHCRVLYCI FGEHLGGTCFI LGERYPICCY 



Figure 5 



BNSDOCID: <WO 99ll663AlJ_> 



WO 99/1 1 663 PCT/FR98/0 1 864 



LISTS DE SEQUENCES 

(1) INFORMATIONS GENE PALES : 



(i.) PI:) PCS ANT : 

(A) NOM: GENSET . 5A 

(U) RUE: 2 4 RUE ROVAI.E 

(CJ VI LLE : PARIS 

(E) PAYS: PRANCE 

(F) CODE POSTAL : 7 5008 

(ii) TJTRE DE L* INVENTION: POLYPEPTIDE DEFENSINE HUMAINE Del'-X, ADN 
GENOMIQUE ET ADNc , COMPOSITION LES CONTENANT ET 
APPLICATIONS AU DIAGNOSTIC ET AU TRAITEMENT TH ERAPEUT IQUE 

(iii) NOMORE DE SEQUENCES: 6 

(iv) FORME DECH I FFRABLE PAR ORDI NATEUR : 

(A) TYPE DE SUPPORT : Floppy disk 

(B) ORDINATEUR: IBM PC compatible 

(C) SYSTEME D 1 EXPLOITATION: PC- DOS /MS -DOS 

(D) LOGICIEL: Pacentln Release Hi.O, Version 111.30 (OEB) 



(2) INFORMATIONS POUR LA SEQ ID NO: 1 : 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 44 15 PAIRES DE BASE 

(B) TYPE: NUCLEOTIDE 

(C) NOMBRE DE BRINS: DOUBLE 

(D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: ADN 

(vi) ORIGINE: 

(A) ORGANISME: Homo sapiens 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: Exon 1 

(B) EMPLACEMENT: 1836. .1874 

(ix) CARACTERISTIQUE: 

(A) NOM/CLE: Exon 2 

(B) EMPLACEMENT: 3394.. 3577 

{ ix) CARACTERISTIQUE : 

(A) NOM/CLE: Exon 3 

(B) EMPLACEMENT: 4161.. 4380 
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( i.x) CARACTERI ST I QUE ; 

(A) NOM/CLE: start CD:; 

(VM EMPLACEMENT: 34Gb.. 3406 

(ix) CAKACTEKI STIQUE : 

(A) NOM/CLE: atop CDS 

(b) EMPLACEMENT: 4276.. 4278 

Ux) CARACTERI ST I QUE : 

( A) NOM/CLE: aite'da polyAdenylat ion 
(13) EMPLACEMENT : 1374.. 4379 

(xi) SEQUENCE. DESCRIPTION: SEQ ID NO: 1: 

ACACCATTTG TCTTCATGTA ACCCCATTAG CTATACCCTC TAGTGCAAGG AAACCATAGG 60 

GCCTAGGTCA CACCATGAGG CTGCNCTTAC AAGTTATGCA AAAACTATGG ACTTGGCAGA 120 

CCTGTGCGTA ACAACATCAC ACNCCAAATT TAACCAGCTC TCCCCATAAC AGCACGCTCA '100 

TGTGTTACTG AGGAAATGCC TGTGGATTGG AGTGTGTTCT GTGTGCAGGA GGCTGGTCCA 24 0 

GGTTTCACTT CTGCAGGACA CTGGACGTTT CCCAAAACCA GCAGACTTTC CCCACGTGCA 300 

CACACACCCC TTCTCATTTT GCCTCTACAT CCATATCCAC TGGGCCCTTC AGGCACCTAC 360 

TAATCCCCTA GAACCTAAAA CCATCATCTG GGGCCCAGTT CCCTGAATGG CCCTAA.TCTC 4 20 

TTCCTCTGCT GGAATGAGTC 'CAGTGCCCAC TTCCTCCAAC GGTGAAATTG CTGGGCTGCT 4 80. 

ACAGATCAGG AACTCACTGC TTCCTCATAG GGGCAGCCGA CTTCACTGCT CTGCAACAGC 13 4 0 

GACCACCCCT AGCGAGGCTT GAGATGCCTC TTGCCTCCTT AAGACTGAGG GAGACGCTTC 60 0 

ACCTCTCACT CCACTGCCCC AAGTCCTCCA CAGCGCGGTG CCTGCTGCCT TC AC AC AG AG 660 

CTGCAGGGGN AGGTCCTGTG TATCCGGCCT GGTGGACCAG CGCTGTGCAC AACCCTCCCA 72 0 

TGGCAACAGT GGCTGCCCGG CCTGCACACT GGGCTTGGCA ACCTCGCTGT AGGTATTTAT 78 0 

TCCCTCAGGA GTGACTGCAT TCTTTTCCCA' TTTCCAGAAA ACTGATGCCA TTTACCTCAC 84 0 

TATGAGGAGG AGGAGGAGGA GGAGGGTGGA GAGTGGTACA TTTTAAAATG TGCACTATTC 900 

TCCCTAGGAC TCCCCCTCAA ATAACCCAGG AGGGACCATA CCAGCTCATT CCTGTGTATC 960 

CCAAGCATAN GAGTAATCAT CCCACTCATG CTGAGTGTAT GGTGGCCATT AAGCCTGCCC 1020 

.TGAACTGGCT TTACAACAAG GTGTTTGAGC ACACAGCACC GTCTTGCTGC CACCTTGGCC 100 0 

CCCTCCCTTG TGAGACCTCT GAGACACATT NAGGTCTCAC CTAAAAATCT CAGGATTTCT 114 0 

AGGCCCAAAN CGGTCCTAAA AAATTGTTCA GTCTGAACTC TCTAAGGTCA AGAGAAGAGG 1200 
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TCGTTGCTCC CTCTAAGAAA CCACATGTTC CATGTACATC CTTAATTCCG GAAAGTCCAA I2b0 

CAAACCTGCC CTGCTTAGCA ACACAACCCG AGGTGGTACT CCTCTCACCC GGGCATTCTC 132.0 

CAACACACCT GTTTGTCCAA ACAGCTTTGA TTTGTTTTTA TACTTGGACC CCAGGTTCCC 13H0 

AGGAGGCTGG TTCAGGCCAT ATTCCAAATC CTCATCTGTC TGTGAGTGGC ATTOTTAGCC J 4 40 

TACCCTCCTT ACAGGGTGGA TACTATGATA CACAGCCAGG CTGTCCCAGT GGCTTTCAAT 1500 

ATTCTTTTGG TCCAGATAGT TCAGCCTCAG CACCAGTGTA GGCATCACAG GGTCAATTGT 15 GO 

CTTAGGAGTC ATGGAGAATT CATAGTTGGT AGC'i'ACCTGG GCCTGCCCAG GGCTGACCAT 1620 

ACACAAGGCA TCCCTCTGTG AACTCCTATT TTAATGCCAG CTTCCCAACA AATTTCTCAA 168 0 

CTCCTCTTAC CAGCAGGTAT TTAAACTACT CAATAGAAAG TAACCCTGAA AATTAGGACA 17 40 

CCTGTTCCCA AAAGACCCTT AAATAGGGGA AGTCCTTTCN CTGCTTGTGC ACAGCTGCTG -i8 00 ' 

ATCTCCCAAC ATGAGGCCTG GGACAGGGGA CTGTCCTCTG CCCACTCTGG TAGCCTCACG IB GO 

TAGCTTAACA ATCTGTCAGT AATACAATAC AAAACTTAAA CTT.TCATACT GCGGTTCCAC 1920 

CCAGGAAGCT GTGTTCCCAA TCTGACCCGT GATTATGGGG CCACCTCAGA GGGNACCCAG. . 1980 

TGAGGGAATA TTTTGCCATC TGGGACTGTT GGTTGCTGGG GGCAGTGGCT ATGAGCTCAG 20 4 0 

TTAATAAACT CAAGCAGTTT CCTTCCAAAC ACACATGTCC TACTTAACGT GTCCAACAGA 2100 

GATGATCATA CTCATANGCT GCTAAAACAT TANTTTTATT TTGAGAAAAG TCTATTCATG 2 1 GO 

TTCTTGGCCC ATGGAGTTTT CATTTNATTA NTTTATTTAT TTTGCAGAGA TGGAGTCTCA 22 2 0 

CTATGTTGCT CAAGCTGGTC TCCAACTCCT GGGCTCAAGC GATCTTCCTA CTTTGGCCTT 2 2 80 

TGAAAGCGCT GAGATTGCCT GTGTGAGCCA TCATGGGGGC TCACTGGCCC ACTGATTAAT 2 34 0 

CAGATTAATT GTTTTTTGCT ATTGAANTTG TTTGACTTCC TTGTATATTC GGATATTTAC 24 00 

CCATTCTAAC ACGTAGGGTT TGCAAATATT TTCTCTCATG TTCTGTGTTG CCTTTTCACT 2 4 60 

CAGTTGATGG TTTCCTTTGC TGTGCAGGTG CTTTAGTGTT CAACGCAGCC CCGCTTGTCT 2 520 

ATTTTCCATT TTATTGCCTG TCCCTTTGAT GTCATAGCCA AGAAATAATT GCCCAGATTA 2 58 0 

ATGTCAAAAA GCTTTATCCC TATATATTCT TCTAGTAGTT TATGGTTTCA GATCTTATGT 2 64 0 

TTAGGTCTTC AATCCATTGA GTTdATTTTT GTATGTGGTA TAAGAAAAAA GACCACATGT ' 2700 

ATACATATCT CAAATTCTAA GGTAGTATAT ATTAGACACA TACAATGTGT CTATTTACAC 27 60 

ACATTGAGCT GAAAATAATA AACATATTTT TATCTTTCAA TCAACTCTAT CTCTATCTCA 2 8 20 
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ctgaacttgt ttcacctata ccctgatgac gttgctgtcc tctctacccc agctcctata 

ccaciactgct catcccctaa cctcaaaaac cccttcatga gggtcataat gcccttgaat 2«m0 

cctch:aatga attacttctc tactacagtc; gaattcaggt ctgttatgac; cgtctggatc judo 

tctgaagaga agagctctca ttttcagaaa ataagcagca tttattccct gaaattactg 30 go 

aattaaatca ctgtttcgat tactttttgc aatattaaaa gtaaatattt aaacacgtaa 312u 

aaacagaaat aatggtaggg tccttatcat caccgtgaat tccaagctag catagacact 3100 

aaacctagag attcacacta gaatgaaagc tgggagagca gaggagtctc acaaggatgt 32 4 0 

ggaggccaat ggacacctgc aacctctcca acgaaatgcc tacctcctct cactgcagca 3 300 

tcgatctctg agccttctcg cagcagagct ataaattcag cctggctcct ccgttcccac 33 go 

acatccactc ctgctctccc tcctctcctc caggtgacta cagttatgag gaccctcacc 34 20 

ctcctctctg cctttctcct ggtggccctt caggcctggg cagagccgct ccaggcaaga 34 80 

gc t c at gaga tgccagccca gaagcagcct ccagcagatg accaggatgt cgtcatttac 313 4 0 

ttttcaggag atgacagctg ctctcttcag gttccaggtg agagatgcca gcatgcagag 3600 

ct ac ag act a gacagaagga caggagacag gctctggaat tggatct.cag tggcagatct 3cg0 

cacttaggtg gctatactta acatctctgg tcctggattt tctcatatct aaatggaata 37 2 0 

g ag aac c aaa gaaat ctaag agatttttct ttctccaaaa acttgattcc a ag at at g ac 37b0 

tgtgaaattc actagattta agatataagg agatgctacc tagttccttc tggagccaca 384 0 

caaacaagct taagtatata ggaaaatatt tcaccctgtc tatataggag gttttagaac 3900 

ctggagagga gcctaagaat gtgttcaggt gtgtgtgtga tgggcaggaa tgcagaaaag 39g0 

tgaagcaaag gagaatgagt ctcgaatcct gtgtgaccag cactgctctg tgtatttatt 4 0 20 

cctattgact gagattgttt gtgctaccgg ctgtaataca gccaacatca ctcatcagcc 4 080 

aacatgtgac ttctccaaga ttccctttac cacccactgc tgnaccccgt actcagtttc 4 140 

tgatgctctc tctgggtccc caggctcaac aaagggcttg atctgccatt gcagagtact 4 200 
atactgcatt tttggagaac .atcttggtgg gacctgcttc atccttggtg aacgctaccc 4 2 go 

aatctgctgc tactaagctt gcagactaga gaaaaagagt tcataatttt ctttgagcat .4 320 
taaagggaat tgttattctt ataccttgtc ctcgatttcc tgtcctcatc ccaaataaat 4 380 

ACTTGGTAAC ATGATTTCCG GGTTTTTTTT TTTTT 4 4 15 
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(2) INFORMATIONS POUR LA SEQ ID NO: 2: 

(i) CARACTERI 3TIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 4 53 FAIRES D K I.JA5 E 
in) TYPE: NUCLEOTIDE 

(C) NOMORE DE BRINS : DOUBLE 

( D ) CON EI GURAT ION: LI N EAI RE 



(ii) TYPE DE MOLECULE: , ADNc ■ 

(vi) ORIGINS : 

(A) ORGAN I SME : Homo sapiens 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: 2: 



CTCTGCCCAC TCTGCTAGCC TCACGTAGCT TAACAATCTG 'TGACTACAGT T ATG AGG 57 

Met Arg 
1 

ACC CTC ACC CTC CTC TCT GCC TTT CTC CTG GTG GCC CTT CAG GCC TGG 105 
Thr Leu Thr Leu Leu Ser Ala Phe Leu Leu Val Ala Leu Gin Ala Trp 
5 10 15 

GCA GAG CCG CTC CAG .GCA AGA GCT CAT GAG ATG CCA GCC CAG AAG CAG 153 
Ala Glu Pro Leu Gin Ala Arg Ala His Glu Met Pro Ala Gin Lys Gin' 
20 ' 25 30 

CCT CCA GCA GAT GAC CAG GAT GTG GTC ATT TAC TTT TCA GGA GAT GAC 201 
Pro Pro Ala Asp Asp Gin Asp Val Val lie Tyr .Phe Scr Gly Asp Asp 
35 * 40 45 'SO 

AGC TGC TCT CTT CAG GTT CCA GGC TCA ACA AAG GGC TTG ATC TGC CAT 24 9 

Ser Cys Ser Leu Gin. Val Pro Gly Ser The Lys Gly Leu lie Cys His 
55 60 " 65 

TGC AGA GTA CTA TAC TGC ATT TTT GGA GAA CAT CTT GGT GGG ACC TGC " 2 97 

Cys Arg Val Leu Tyr Cys lie Phe Gly Glu His Leu Gly Gly Thr Cys 
70 75 80 

TTC ATC CTT GGT GAA CGC TAC CCA ATC TGC TGC TAC TAA GCTTGCAGAC 34 6 

Phe lie Leu Gly Glu Arg Tyr Pro lie Cys Cys Tyr 

85 • 90 95 

TAGAGAAAAA GAGTTCATAA TTTTCTTTGA GCATTAAAGG GAATTGTTAT TCTTATACCT 4 06 

TGTCCTCGAT TTCCTGTCCT CAT C CC AAAT AAATACTTGG TAACATG 453 
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(2) INFORMATIONS POUR LA SEQ ID NO: 3: 

(i) CAKACTERISTIQUF.S DE LA SEQUENCE: 
(A) LONGUEUR: [14 ACIDES AMINE? 
(U) TYPE: AC IDE AMINE 

(C) NOMBRE L)E QKIN'" : iUMPLE 

(D) CONFIGURATION: MNEAIRG 

■CiL) TYPE DE MOLECULE: PROTEINS 

(vi) OIUGT'NE: 

(A) ORCAN1SME: Homo sapiens 

(ix) CARACTERI ST I QUE : 

(A) NOM/CLE: PEPTIDE SIGNAL 
( 0) EMPLACEMENT: 1 . . 19 

(ix) CARACTERI STIQUE : 

(A) NOM/CLE : REGION PRO 
( D ) EMPLACEMENT: 20.. 63 

(ix) CARACTERI STIQUE : 

(A) NOM/CLE: PEPTIDE MATURE 

(B) EMPLACEMENT: 64 . . 94 

(>:i) SEQUENCE DESCRIPTION: SEQ ID NO: 3: 



Mou Arq Thr Lou Thr Leu Leu S^r Ala The Leu Leu Val Ala Leu Gin 
1 5 10 IS 

Ala Trp Ala Giu Pro Leu Gin Ala Arg Ala His Glu Met Pro Ala Gin 
2 0 2 5 30 

Lys Gin Pro Pro Ala Asp Asp Gin Asp Val Val lie Tyr Phe Ser Gly 
35 4 0 4 5 

Asp Asp Ser Cys Ser Leu Gin Val Pro Gly Ser Thr Lys Gly Leu lie 
50 5 5 60 

Cys His Cys Arg Val Leu Tyr Cys lie Phe Gly Glu His Leu Gly Gly 
65 70 75 80 

Thr Cys Phe lie Leu Gly Glu Arg Tyr Pro lie Cys Cys Tyr 
8 5 90 
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(2) INFORMATIONS POUR LA SEQ ID KG: 4: 

(i) CARACTERISTIQUES DE l,A SEQUENCE : 

( A ) LONGUEUR : 1 9 AC I QV.V> AM I NES 

(B) T Y P E : ACron; AM I Nr. 

(C) NOMBKG DE BRINS: SIMPLE 

(D) CONFIGURATION: LINKAIRE 

(i.i) TYPE DE MOLECULE: PEPTIDE. SIGNAL 

(vi) OIUGINE: 

(A) ORGAN I SME : Homo sapiens 

. {xi) SEQUENCE DESCRIPTION: SEQ ID NO:. A: 



Mot Ar<j The* Leu Thr Leu Leu Ser Ala Phe Leu Leu Val Ala Leu Gin 

1 "5 10 15 

Ala Trp Ala 



(2) INFORMATIONS POUR LA SEQ ID NO : 5: 

i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 4 4 ACIDE3 AMINES 

(B) TYPE: AC I DE AMINE 

(C) NOMDRE DE DRINS: SIMPLE 

(D) CONFIGURATION: LINEAIRE 

Ui) TYPE DE MOLECULE: REGION PRO 

(vi) ORIGINE: 

(A) ORGAN I SME : Homo sapiens 

(xi.) SEQUENCE DESCRIPTION: SEQ ID NO: 5: 



Glu Pro Leu Gin Ala Arg Ala His Glu Met Pro Ala Gin Lys Gin Pre 
1 5 10 15 

Pro Ala Asp Asp Gin Asp Val Val lie Tyr Phe Ser Gly Asp Asp Ser 
20 . 25 30 

Cys Ser Leu Gin Val Pro Gly Ser Thr Lys Gly Leu 
35 40 
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(2) INFORMATIONS POUR LA SEQ ID NO: 6: 

(i) CARACTEIUSTI0UE5 DE LA SEQUENCE: 

(A) LONGUEUR: 3 1 ACIDES AMINES 

(B) TYPE: AC IDE AMINE ' 

(C) NOMDRE DE DRINS: SIMPLE 
{ D) CONFIGURATION: LINEAIRE 

(ii) TYPE DE MOLECULE: PEPTIDE MATURE 

(vi) ORTGINE: 

(A) ORGANISME: Homo sapiens 

(xi) SEQUENCE DESCRIPTION: SEQ ID NO: € : 



lie Cya His Cys Arg Val Leu Tyr Cys lie Phe Giy Giu His Lou G.ly 

15. 10 ' 15 

Giy Thr Cys Phe He Leu Gly Glu Arg Tyr Pro lie Cys Cys Tyr 

20 25 30 
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